Vid2World - 清华大学与重庆大学合作开发视频模型转换为世界模型的创新框架

Vid2World是什么

Vid2World是清华大学联合重庆大学推出的创新框架,支持将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。模型基于视频扩散因果化和因果动作引导两大核心技术,解决传统VDM在因果生成和动作条件化方面的不足。Vid2World在机器人操作和游戏模拟等复杂环境中表现出色,支持生成高保真、动态一致的视频序列,支持基于动作的交互式预测。Vid2World为提升世界模型的实用性和预测精度开辟新途径,具有广泛的应用前景。

Vid2World

Vid2World的主要功能

  • 高保真视频生成:生成与真实视频在视觉保真度和动态一致性上高度相似的预测。
  • 动作条件化:根据输入的动作序列生成相应的视频帧,支持细粒度的动作控制。
  • 自回归生成:用自回归的方式逐帧生成视频,每一步的生成仅依赖于过去的帧和动作。
  • 因果推理:模型能进行因果推演,预测仅依赖于过去的信息,不会受到未来信息的影响。
  • 支持下游任务:支持辅助机器人操作、游戏模拟等交互式任务。

Vid2World的技术原理

  • 视频扩散因果化:视频扩散模型(VDM)对整个视频序列同时进行去噪,全序列的生成方式不适合因果推演,因为未来的帧会影响过去的帧。为实现因果生成,Vid2World对预训练的VDM进行修改,时间注意力层基于应用因果掩码,限制注意力机制只能访问过去的帧,实现因果性。时间卷积层推出混合权重转移方案,保留预训练权重的同时,让模型适应因果卷积层。基于Diffusion Forcing技术,在训练时为每一帧独立采样噪声水平,让模型学习到不同帧之间的噪声水平组合,支持自回归生成。
  • 因果动作引导:为让模型响应细粒度的动作,Vid2World引入因果动作引导机制。每个动作基于轻量级的多层感知机(MLP)进行编码,添加到对应的帧中。在训练时,用固定概率独立丢弃每个动作,迫使模型同时学习条件和非条件得分函数。在测试时,基于线性组合条件得分函数和非条件得分函数,调整对动作变化的响应性。基于独立丢弃动作,模型能学习到动作对生成结果的影响,在自回归生成过程中更好地响应动作输入。

Vid2World的项目地址

  • 项目官网:https://knightnemo.github.io/vid2world/
  • HuggingFace模型库:https://huggingface.co/papers/2505.14357
  • arXiv技术论文:https://arxiv.org/pdf/2505.14357

Vid2World的应用场景

  • 机器人操作:生成高保真预测,辅助机器人任务规划。
  • 游戏模拟:生成与真实游戏高度一致的视频,助力神经游戏引擎开发。
  • 策略评估:模拟不同策略执行结果,助力策略优化。
  • 视频预测:基于已有帧和动作序列预测后续帧,用在视频补全等。
  • 虚拟环境构建:生成响应动作的虚拟场景,提升虚拟现实交互性。

发表评论