Jodi – 中国科学院新推出的融合视觉理解与生成技术的统一模型解析

Jodi是什么

Jodi是中国科学院计算技术研究所和中国科学院大学推出的扩散模型框架,基于联合建模图像域和多个标签域,将视觉生成与理解统一起来。Jodi基于线性扩散Transformer和角色切换机制,执行联合生成(同时生成图像和多个标签)、可控生成(基于标签组合生成图像)及图像感知(从图像预测多个标签)三种任务。Jodi用包含20万张高质量图像和7个视觉域标签的Joint-1.6M数据集进行训练。Jodi在生成和理解任务中均表现出色,展现强大的可扩展性和跨领域一致性。

Jodi

Jodi的主要功能

  • 联合生成:同时生成图像和多个标签,例如深度图、法线图、边缘图等,生成的图像和标签在语义和空间上保持一致。
  • 可控生成:根据给定的标签组合生成图像,用户指定某些标签作为条件输入,控制生成图像的特定属性或特征。
  • 图像感知:从给定的图像中同时预测多个标签,实现对图像的多维度理解和分析,例如同时进行深度估计、边缘检测、语义分割等任务。

Jodi的技术原理

  • 联合建模:基于图像域和多个标签域的联合分布进行建模,基于学习联合分布p(x, y1, y2, …, yM),推导出生成任务和理解任务所需的边际分布和条件分布。
  • 角色切换机制:在训练过程中,每个域随机分配三种角色之一,生成目标([G])、条件输入([C])或被忽略([X])。模型能同时学习不同类型的概率分布,包括联合生成、可控生成和图像感知。
  • 线性扩散Transformer:用线性扩散Transformer作为主干网络,基于线性注意力机制有效降低计算复杂度,让模型能高效地处理多个视觉域。引入了掩码线性注意力和领域不变的位置嵌入,增强不同视觉域之间的一致性和对齐。
  • 数据集构建:为支持多视觉域的联合建模,Jodi构建Joint-1.6M数据集,包含20万张高质量图像以及对应的7个视觉域的自动标签,为模型训练提供丰富的数据支持。

Jodi的项目地址

  • 项目官网:https://vipl-genun.github.io/Project-Jodi/
  • GitHub仓库:https://github.com/VIPL-GENUN/Jodi
  • HuggingFace模型库:https://huggingface.co/VIPL-GENUN/Jodi
  • arXiv技术论文:https://arxiv.org/pdf/2505.19084

Jodi的应用场景

  • 创意内容生成:为艺术家和设计师提供灵感,快速生成具有特定风格或元素的图像。
  • 多模态数据增强:生成高质量的多模态数据,增强机器学习模型的训练数据集。
  • 图像编辑与修复:根据用户输入修复或编辑图像,生成缺失部分或调整风格。
  • 视觉理解与分析:预测多种视觉标签,辅助图像理解任务,如医学图像分析。
  • 虚拟现实与增强现实:生成逼真的虚拟场景和标注信息,提升VR和AR应用的体验。

发表评论