上海AI实验室与浙大携手推出OmniWorld:为人工智能构建全新4D学习环境

上海人工智能实验室与浙江大学联合团队近日取得重要突破,在计算机视觉领域顶级会议上发表了一项关于三维世界建模的研究成果。该团队构建的OmniWorld数据集规模超过3亿帧视频,涵盖游戏环境、机器人操作、人类行为和网络视频四大领域,为人工智能理解三维空间与时间变化提供了全新训练资源

研究团队通过现代游戏引擎生成了超过1850万帧合成数据,这些数据包含精确的深度信息、相机位置和动态场景标注。与现实世界采集相比,游戏环境能够提供理想化的多模态标注,包括720P以上分辨率的图像、毫米级精度的深度图和微秒级同步的光流数据。这种虚拟数据与机器人操作、厨房行为、街景记录等真实场景数据相结合,形成了横跨古代、现代和未来科幻的多维度时空数据集

在数据标注方面,研究团队开发了自动化处理流程。对于游戏数据,直接从渲染管线提取深度信息;对于机器人数据,采用Prior Depth Anything算法优化稀疏深度图;针对双目相机数据,则运用FoundationStereo算法进行立体匹配。相机位置标注通过两阶段流程实现:先利用前景遮罩定位静态背景,再通过密集点跟踪和束调整将误差控制在厘米级

文本描述系统采用分层标注策略,针对机器人操作数据提供任务级和帧级双重描述,游戏场景则包含角色行为、环境特征和相机运动等五类标注。光流信息标注使用DPFlow算法在原始分辨率下直接计算,确保动态场景的微小运动都能被精确捕捉。前景遮罩生成结合RoboEngine和SAM 2模型,实现了对动态物体的毫米级轮廓提取

基准测试显示,现有模型在处理长序列动态场景时存在显著局限。在单目深度估计任务中,最先进的MoGe-2模型在384帧序列上的绝对相对误差仍超过15%。视频深度估计任务要求模型保持时间一致性,VGGT模型在快速运动场景中的帧间误差达到23%。相机控制视频生成测试表明,AC3D模型在复杂轨迹下的FVD值高达120,显示生成质量与控制精度之间的平衡尚未解决

模型微调实验验证了数据集的实用价值。使用OmniWorld训练的DUSt3R模型在单目深度估计任务中,相对误差较原始版本降低37%,超过在多个动态数据集上联合训练的MonST3R模型。视频深度估计任务中,CUT3R模型的时间一致性指标提升42%,证明长序列数据能有效改善模型对空间变化的感知能力

数据集统计显示,人类活动数据占比达41%,包含从厨房操作到复杂装配的237种行为类型。游戏场景覆盖户外城市、自然环境等四大类,其中第一人称视角数据占68%,更贴近人类视觉体验。文本标注密度达到每帧180个标记,提供比现有数据集丰富3倍的语义信息。光流标注覆盖从0.5像素/帧到50像素/帧的广泛运动范围,满足不同速度物体的建模需求

技术创新体现在多模态时空对齐技术上。研究团队开发的自动化流水线能将长视频智能分割为包含完整运动周期的片段,过滤掉92%的低质量帧。深度标注混合策略使合成数据与真实数据的误差差异控制在8%以内,证明虚拟环境数据能有效迁移到现实场景。相机轨迹重建算法在动态场景中的旋转误差控制在0.3度以内,达到专业测量设备的精度水平

实验设计遵循严格标准,所有模型在A800 GPU上统一测试,输入图像长边缩放至512像素。三维几何预测采用Abs Rel和δ

发表评论