开云(中国大陆官方网站)Kaiyun科技股份有限公司 - 领先的GPU计算与AI算力解决方案

关闭菜单
027-83317177
当前位置: 首页 > 新闻资讯 > 行业新闻

VGGT4D:无需训练挖掘3D基础模型潜力实现4D动态场景重建

2025-12-21 23:04:54 小编

  

VGGT4D:无需训练挖掘3D基础模型潜力实现4D动态场景重建

  如何让针对静态场景训练的 3D 基础模型(3D Foundation Models)在不增加训练成本的前提下,具备处理动态 4D 场景的能力?

  作为一种无需训练 (Training-free) 的框架,VGGT4D 在动态物体分割、相机位姿估计及长序列 4D 重建等任务上均取得了优异性能。

  近年来,以 VGGT、DUSt3R 为代表的 3D 基础模型在静态场景重建中表现出色。然而,面对包含移动物体(如行人、车辆)的动态 4D 场景时,这些模型的性能往往显著下降。动态物体的运动不仅干扰背景几何建模,还会导致严重的相机位姿漂移。

  VGGT4D 的核心设想:能否在不进行额外训练的前提下,直接从预训练的 3D 基础模型中挖掘出 4D 感知能力?

  研究人员对 VGGT 的注意力机制进行了可视化分析,观察到一个关键现象:VGGT 的不同网络层对动态区域表现出截然不同的响应模式。

  这一发现表明,VGGT 虽然是基于静态假设训练的,但其内部实际上已经 隐式编码 了丰富的动态线索。

  VGGT4D 的核心贡献在于提出了一套无需训练的注意力特征挖掘与掩膜精修机制。该方法深入特征流形内部,利用 Gram 矩阵和梯度流实现了高精度的动静分离。

  在推理阶段,直接的全层掩膜(Full Masking)会将模型推向分布外(OOD)状态,导致性能下降。

  VGGT4D 提出了一种早期阶段干预策略:仅在浅层抑制动态 Token 的 Key 向量。这种设计既在早期切断了动态信息对深层几何推理的影响,又保证了深层 Transformer Block 依然在其预训练的特征流形上运行,从而保证了位姿估计的鲁棒性。

  研究团队针对动态物体分割、相机位姿估计和 4D 点云重建三大核心任务,在六个基准数据集上进行了详尽的定量和定性评估。

  定性分析:定性结果清晰地展示了基线R 的掩码较为粗糙且遗漏细节;DAS3R 倾向于过度分割并渗入静态背景;MonST3R 则常常分割不足。相比之下,VGGT4D 生成的掩码更加准确,且边界更加清晰。这些结果有力地验证了研究团队的假设:VGGT 的 Gram 相似度统计信息中嵌入了丰富的、可提取的运动线索。

  强大的基线与持续改进:数据表明,原始 VGGT 已经是一个非常强大的基线,其自身就优于 MonST3R、DAS3R 等许多专门的 4D 重建方法。这表明 VGGT 的预训练隐式地使其对动态物体具有一定的鲁棒性。然而,这种鲁棒性并不完美。 VGGT4D 在所有数据集上均持续改进了这一强大的 VGGT 基线。例如在 VKITTI 数据集上,VGGT4D 的 ATE 仅为 0.164,而 MonST3R 高达 2.272。

  长序列鲁棒性突破:在极具挑战性的长序列 Point Odyssey 基准测试中,VGGT4D 在所有指标上均取得了最佳结果,同时保持了高度效率。许多其他 4D 方法由于内存不足(OOM)错误甚至无法在该 500 帧序列上运行。这表明 VGGT4D 提出的显式、无需训练的动态 - 静态分离方法成功地识别并消除了由运动引起的残余位姿不一致性,从而实现了更稳定、更准确的相机轨迹,尤其是在长且复杂的序列上。

  在 DyCheck 数据集上的评估显示,VGGT4D 在所有重建指标(准确度、完整度和距离)上均取得了最佳性能。与 VGGT 基线相比,中位准确度误差从 0.009 降低到 0.004,平均距离从 0.150 降低到 0.123。这证明了该方法不仅实现了精准的动静分离,更能实质性提升几何重建质量。

  VGGT4D 提出了一种无需训练的新范式,成功将 3D 基础模型的能力扩展至 4D 动态场景。该工作证明了通过合理挖掘模型内部的 Gram 相似度统计特性,可以有效解耦动态与静态信息。这不仅为低成本的 4D 重建提供了新思路,也展示了基础模型在零样本迁移任务中的潜力。

  大连市公安局高度重视,立即成立工作组,对事件开展全面调查,如发现违法违纪行为,将依规依纪依法严肃处理。

  山西废除烟花爆竹禁放令,太原市监局工作人员:废止之后如何管理,暂未收到通知

  山西废除烟花爆竹禁放令,太原市监局工作人员:废止之后如何管理,暂未收到通知 【 齐鲁晚报·齐鲁壹点旗下短视频产品 】

  新式警服将亮相!2025式警服正式列装,新中国成立以来人民警察第9次换装

  大河报·豫视频记者 邵可强新警服将亮相!据公安部最新消息,近日,经党中央、国务院批准,2025式人民警察制式服装正式列装。这是新时代以来人民警察队伍首次整体换装。据了解,新中国成立以来,人民警察制式服装共经历了9次较大的改革。

  昨天的浙江,实在是暖到离谱!浙中南一大片地区的最高气温都爬到了25℃以上,最热的永嘉27.3℃,黄岩27.2℃,这个气温放在12月实在太不像话。大街上也是频频出现热得只剩短袖的年轻人。今天丽水青田实况(拍摄者:杜俊)不过,冷空气已经在来的路上了......

  各区县人民政府,市人民政府各部门,各有关单位:为深入贯彻落实党的二十大和二十届三中全会关于完善基层综合执法体制机制的决策部署,根据《河南省人民政府关于优化调整赋予乡镇行政处罚权的通知》要求,结合我市实际,现就优化调整赋予乡镇行政处罚权有关事项通知如下:一、明确承接事项清单。

  Hub71的公共大厅里,来自世界各地的创业者。在中东,阿布扎比雄厚的石油资本加速对AI的投资。如果创新始于思想的交融,那么,阿布扎比可能成为AI的关键一极文 《财经》记者 邹碧颖编 王延春阿布扎比是新与旧的混杂体。从北京飞抵这一遥远的中东酋长国,需要八个小时。

  专家名片张建平 商务部国际贸易经济合作研究院学术委员会副主任张燕生 中国宏观经济研究院研究员邓富华 西南财经大学国际商学院院长助理、副教授川观智库研究员 燕巧 刘成婧党的二十届四中全会提出,扩大高水平对外开放,稳步扩大制度型开放,以开放促改革促发展。

  逛超市无需手提商品,机器狗紧随身后陪伴购物,购物结束后商品由无人机直接配送到家,这一幕科技感十足的消费场景,如今在郑州市管城回族区金岱经济技术开发区,河南低空经济产业园内的“万物可联空中超市”成为现实。

联系专业的商务顾问,制定方案,专业设计,一对一咨询及其报价详情
服务热线服务热线 027-83317177
咨询kaiyun全站解决方案 马上咨询
免费获取技术咨询服务
姓名图标
电话图标
QQ图标

联系我们 contact us
027-83317177