南大与复旦等高校合作推出的高分辨率3D生成框架Direct3D-S2

Direct3D-S2是什么

Direct3D-S2 是南京大学、DreamTech、复旦大学和牛津大学的研究人员共同推出的高分辨率 3D 生成框架,基于稀疏体积表示和创新的空间稀疏注意力(SSA)机制,大幅提升扩散变换器(DiT)的计算效率,显著降低训练成本。框架包含全端到端的稀疏 SDF 变分自编码器(SS-VAE),用对称编码器-解码器结构,支持多分辨率训练,支持在 1024³ 分辨率下用 8 个 GPU 进行训练。Direct3D-S2 在生成质量和效率上均超越现有方法,为高分辨率 3D 内容创作提供强大的技术支持。

Direct3D-S2

Direct3D-S2的主要功能

  • 高分辨率3D形状生成:从图像生成高分辨率的3D形状,支持高达1024³的分辨率,生成的3D模型具有精细的几何细节和高视觉质量。
  • 高效的训练与推理:显著提高扩散变换器(DiT)的计算效率,降低训练成本。在1024³分辨率下仅需8个GPU进行训练。
  • 图像条件的3D生成:支持基于图像的条件生成,根据输入图像生成与之对应的3D模型。

Direct3D-S2的技术原理

  • 空间稀疏注意力(SSA)机制:将输入token按3D坐标分块,基于稀疏3D卷积和池化操作提取块级全局信息,减少token数量,提高计算效率。根据压缩模块的注意力分数,选择重要的块进行细粒度特征提取,进一步优化计算资源的使用。基于局部窗口操作注入局部特征,增强局部特征交互,提高生成质量。基于预测的门控分数聚合三个模块的输出,生成最终的注意力结果。
  • 稀疏SDF变分自编码器(SS-VAE):用稀疏3D卷积网络和Transformer网络相结合的方式,将高分辨率稀疏SDF体积编码为稀疏潜在表示,基于解码器重建SDF体积。在训练过程中随机采样不同分辨率的SDF体积,提高模型对不同分辨率数据的适应能力,增强训练效率和泛化能力。
  • 图像条件的扩散变换器(SS-DiT):从输入图像中提取稀疏前景token,减少背景token的干扰,提高生成的3D模型与输入图像的一致性。基于条件流匹配(CFM)训练模型,预测从噪声样本到数据分布的速度场,实现高效的3D形状生成。

Direct3D-S2的项目地址

  • 项目官网:https://nju-3dv.github.io/projects/Direct3D-S2/
  • GitHub仓库:https://github.com/DreamTechAI/Direct3D-S2
  • arXiv技术论文:https://arxiv.org/pdf/2505.17412
  • 在线体验Demo:https://huggingface.co/spaces/wushuang98/Direct3D-S2

Direct3D-S2的应用场景

  • 虚拟现实(VR)和增强现实(AR):构建逼真的3D环境,创建个性化3D角色,融合现实场景用于教育和保护文化遗产。
  • 游戏开发:快速生成高质量3D游戏资产,实现实时3D内容生成,根据玩家输入生成定制化内容。
  • 产品设计和原型制作:快速生成产品3D模型,虚拟展示产品,满足个性化设计需求。
  • 影视和动画制作:生成高质量3D动画角色,创建虚拟场景,制作复杂3D特效。
  • 教育和培训:创建虚拟实验室,生成3D教学模型,进行虚拟职业培训。

发表评论