中科院与中国电信等机构合作推出的MTVCrafter人像动画生成框架创新方案

MTVCrafter是什么

MTVCrafter是中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于原始3D运动序列进行高质量动画生成。框架基于4D运动标记化(4DMoT)直接对3D运动数据进行建模,避免传统方法中依赖2D渲染姿态图像的局限性。框架引入运动感知视频扩散Transformer(MV-DiT),用独特的4D运动注意力和位置编码,有效用4D运动标记作为动画生成的上下文。MTVCrafter在TikTok基准测试中取得6.98的FID-VID成绩,比第二名的方法高出65%,展现出强大的泛化能力和鲁棒性。

MTVCrafter

MTVCrafter的主要功能

  • 高质量动画生成:直接对3D运动序列进行建模,生成高质量、自然且连贯的人类动画视频。
  • 强大的泛化能力:支持泛化到未见的运动和角色,包括单个和多个角色、全身和半身角色,涵盖多种风格(如动漫、像素艺术、水墨画和写实风格)。
  • 精确的运动控制:jiyu 4D运动标记化和运动注意力机制,实现对运动序列的精确控制,确保动画的准确性和一致性。
  • 身份一致性保持:在动画生成过程中,保持参考图像的身份特征,避免身份漂移或失真。

MTVCrafter的技术原理

  • 4D运动标记化器(4DMoT):4DMoT用编码器-解码器结构,基于2D卷积和残差块处理时间(帧)和空间(关节)维度的数据,用向量量化器将连续的运动特征映射到离散的标记空间。标记在统一的空间中表示,便于后续的动画生成。
  • 运动感知视频扩散Transformer(MV-DiT):设计4D运动注意力机制,将4D运动标记与视觉标记(如视频帧)结合。基于4D旋转位置编码(RoPE),恢复因标记化和展平丢失的时空关系。引入运动感知的分类器自由引导,基于学习无条件和条件生成的联合表示,提高生成质量和泛化能力。用简单但有效的重复和拼接策略,将参考图像与噪声视频潜变量结合,确保身份一致性。

MTVCrafter的项目地址

  • GitHub仓库:https://github.com/DINGYANB/MTVCrafter
  • arXiv技术论文:https://arxiv.org/pdf/2505.10238

MTVCrafter的应用场景

  • 数字人动画:为虚拟主播、客服、偶像等数字人生成自然流畅的动作和表情。
  • 虚拟试穿:结合用户照片和服装,生成动态试穿效果,提升购物体验。
  • 沉浸式内容:在VR和AR中生成与用户动作同步的虚拟角色动画,增强沉浸感。
  • 影视特效:快速生成高质量角色动画,降低制作成本,提升特效表现力。
  • 社交媒体:让用户结合照片和动作创作个性化动画,增加内容趣味性。

发表评论