2026/1/18 6:22:33
网站建设
项目流程
网站官网上的新闻列表怎么做,南宁网站建设nnit30,wordpress mepal,零基础学it哪个专业好点击下方卡片#xff0c;关注“CVer”公众号AI/CV重磅干货#xff0c;第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号#xff1a;CVer2233#xff0c;小助手拉你进群#xff01;扫描下方二维码#xff0c;加入CVer学术星球#xff01;可以获得最新顶会/顶…点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【顶会/顶刊】投稿交流群添加微信号CVer2233小助手拉你进群扫描下方二维码加入CVer学术星球可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料及应用发论文/搞科研/涨薪强烈推荐当前的视频大模型发展迅速但在面对复杂的空间移动和物理规律时依然 “看不懂” 物体如何运动。它们或许能描述视频中发生了什么但如果你问它“红色的车是在蓝色车转弯之前还是之后通过路口的” 或者 “那个皮球的抛物线轨迹最高点在哪里”很多模型就开始 “胡言乱语” 了。究其根本在于高质量运动数据的极度匮乏。现有的数据集要么规模太小要么依赖昂贵的人工标注难以支撑模型去学习真实世界中细粒度的物理运动。针对这一痛点来自 MIT、NVIDIA、UC Berkeley 等机构的研究者提出了 FoundationMotion一套完全不依赖人工标注的自动化数据管线。令人惊讶的是仅靠这套管线生成的数据微调后15B 参数的视频模型竟在运动理解任务上超越了 Gemini-2.5 Flash 以及 72B 参数的开源大模型NVILA-Video-15B: 90.6% on AV-Car benchmark Gemini-2.5-Flash: 84.1%Qwen-2.5-VL-72B: 83.3%项目主页 https://yulugan.com/projects/FoundationMotion.html论文 https://arxiv.org/abs/2512.10927代码 https://github.com/Wolfv0/FoundationMotion视频模型的 “物理盲” 危机2024 年至今被认为是视频生成模型的爆发期。从 OpenAI 的 Sora 到各类国产模型AI 已经能够生成极其逼真的动态画面。然而在华丽的像素背后一个长期被忽视的问题逐渐暴露出来这些模型并不真正理解物体的运动。例如在测试中研究人员发现它们可以生成高速行驶的赛车却难以判断刹车究竟是发生在碰撞之前还是之后它们能描绘复杂的街景却常常搞错行人的移动方向与相对位置关系。比如我们上传一段一辆汽车在夜间行驶变道超过了前方车辆的视频给 Gemini 3 Pro Preview问 “What is the primary driving behavior demonstrated by the ego vehicle in the video?”Gemini 3 Pro Preview 的回答是这辆车正在它的车道上行驶完全没有理解这个视频最主要的运动变道与超车。正如心理学家 Barbara Tversky 在《Mind in Motion》中所指出的空间与运动是人类理解世界的基础。 而这一能力恰恰是当前视频模型最薄弱的部分。问题的根源在于数据。现有视频数据要么只包含静态描述如 “一只狗在草地上”要么高度依赖昂贵、难以扩展的人工标注使得大规模、细粒度的 “运动理解” 数据几乎无法获得。FoundationMotion一座全自动的 “运动数据工厂”为了解决这一瓶颈研究团队提出了 FoundationMotion—— 一套端到端、无需人工参与的自动化数据生成系统。它的工作流程可以被形象地拆解为四步1 2. 预处理 先把 “运动” 精确地抓出来首先使用成熟的目标检测与跟踪模型对视频进行逐帧分析将人、车辆、手部、机械臂等关键物体转化为连续的时空轨迹Trajectories。输入 任何视频。输出 每个物体在视频中的精确运动坐标。2. 把轨迹 “讲给” 语言模型听仅有数字坐标对语言模型来说过于抽象FoundationMotion 采用了多模态融合策略将轨迹转化为结构化的文本描述同时将视频帧与轨迹信息作为 Prompt 输入。这相当于为模型提供了一份 “运动说明书”让它不仅看到画面还能结合坐标理解物体究竟是如何移动的。3. 让模型生成标注与问题研究团队利用 GPT-4o-mini在轨迹与视频的基础上自动生成两类高质量数据精细化运动描述包含速度变化、方向、终止位置等细节多维度运动理解问答覆盖动作识别、时序关系、动作 - 物体关联、空间位置以及重复计数等关键能力。最终团队基于 InternVid 构建了约 50 万条高质量运动理解数据形成了 FoundationMotion 数据集。数据样例小模型击败大模型在实验环节研究人员使用 FoundationMotion 生成的数据微调了多个开源视频模型包括 NVILA-Video-15B 与 Qwen2.5-7B。结果显示高质量数据带来的提升是巨大的越级挑战 微调后的 7B/15B 模型在多个运动理解基准上超越了 Gemini-2.5 Flash 与 Qwen2.5-VL-72B。纯数据驱动 这一提升不依赖额外的模型结构设计或复杂的推理策略完全归功于数据的质量。强泛化性 在自动驾驶、机器人操作、日常活动等不同领域均具备良好表现。无损通用能力 在增强物理感知的同时并未损害模型原本的通用视频理解能力。通向 “物理 AI” 的关键一步FoundationMotion 的意义远不止于刷榜。在自动驾驶与机器人领域“理解物体如何运动” 直接关系到系统的安全与决策能力。FoundationMotion 提供了一条低成本、可扩展的路径让 AI 能够通过观看海量视频逐步建立对物理世界的直觉。这套管线未来可广泛用于视觉语言模型VLM视觉 - 语言 - 动作模型VLA世界模型World Models这被认为是构建真正的具身智能Embodied AI的基础设施。本文系学术转载如有侵权请联系CVer小助手删文何恺明在MIT授课的课件PPT下载在CVer公众号后台回复何恺明即可下载本课程的所有566页课件PPT赶紧学起来ICCV 2025 论文和代码下载在CVer公众号后台回复ICCV2025即可下载ICCV 2025论文和代码开源的论文合CVPR 2025 论文和代码下载在CVer公众号后台回复CVPR2025即可下载CVPR 2025论文和代码开源的论文合集CV垂直方向和论文投稿交流群成立扫描下方二维码或者添加微信号CVer2233即可添加CVer小助手微信便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖目标检测、图像分割、目标跟踪、人脸检测识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。 一定要备注研究方向地点学校/公司昵称如Mamba、多模态学习或者论文投稿上海上交卡卡根据格式备注可更快被通过且邀请进群▲扫码或加微信号: CVer2233进交流群 CVer计算机视觉知识星球人数破万如果你想要了解最新最快最好的CV/DL/AI论文、实战项目、行业前沿、从入门到精通学习教程等资料一定要扫描下方二维码加入CVer知识星球最强助力你的科研和工作 ▲扫码加入星球学习▲点击上方卡片关注CVer公众号 整理不易请点赞和在看