DanceGRPO – 字节Seed携手港大推出全新统一视觉生成及强化学习框架

DanceGRPO是什么

DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域,覆盖两大生成范式(diffusion 和 rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)及五类奖励模型(图像视频美学、图文对齐、视频动态质量、二元奖励)。DanceGRPO 解决现有视觉生成任务中 RLHF 方案的局限性,实现在多种生成范式、任务、基础模型和奖励模型之间的无缝适应,显著提升模型性能,降低显存压力,适应大型 prompt 数据集训练,能迁移到 rectified flow 和视频生成模型。

DanceGRPO

DanceGRPO的主要功能

  • 提升视觉生成质量:让生成的图像和视频更符合人类审美,更逼真、自然。
  • 统一多种生成范式和任务:适用于文本到图像、文本到视频、图像到视频等多种任务。
  • 适应多种模型和奖励:兼容多种基础模型和奖励模型,满足多样化需求。
  • 提高训练效率和稳定性:降低显存压力,提高训练效率,增强训练稳定性。
  • 增强人类反馈学习能力:让模型更好地从人类反馈中学习,生成更符合人类期望的内容。

DanceGRPO的技术原理

  • 将去噪过程建模为马尔可夫决策过程:将 diffusion 模型和 rectified flows 的去噪过程建模为马尔可夫决策过程(MDP),将 prompt 作为状态的一部分,将去噪过程中的每一步操作视为一个动作,为强化学习的应用提供基础框架。
  • 基于 SDE 采样方程:为满足 GRPO 对随机探索的要求,将 diffusion 模型和 rectified flows 的采样过程统一表述为随机微分方程(SDE)的形式。对于 diffusion 模型,正向 SDE 描述数据逐渐加噪的过程,对应的逆向 SDE 用生成数据,对于 rectified flows,基于引入 SDE 实现逆向过程的随机性,为强化学习提供必要的随机探索机制。
  • 应用 GRPO 目标函数进行优化:借鉴 Deepseek-R1 中的 GRPO 策略,给定一个 prompt,生成一组输出样本,基于最大化 GRPO 的目标函数优化策略模型。目标函数考虑奖励信号及不同样本之间的优势函数,模型能在训练过程中更好地学习到如何根据奖励信号调整生成策略,提高生成结果的质量和与人类偏好的一致性。
  • 初始化噪声和时间步选择策略:在 DanceGRPO 框架中,初始化噪声是一个关键因素。为避免 reward hacking 现象,DanceGRPO 为来自相同文本提示的样本分配共享的初始化噪声。DanceGRPO 用时间步选择策略,基于选择适当的优化时间步,在不降低性能的前提下减少计算量,提高训练效率。
  • 多奖励模型的集成与优势函数聚合:为确保训练的稳定性和生成结果的高质量,DanceGRPO 在实践中用多个奖励模型。由于不同的奖励模型可能具有不同的量纲和分布,DanceGRPO 基于优势函数聚合的方法,更好地平衡不同奖励模型的贡献,让模型在优化过程中综合考虑多个方面的评价指标,生成更符合人类期望的视觉内容。

DanceGRPO的项目地址

  • 项目官网:https://dancegrpo.github.io/
  • GitHub仓库:https://github.com/XueZeyue/DanceGRPO
  • arXiv技术论文:https://arxiv.org/pdf/2505.07818

DanceGRPO的应用场景

  • 文本到图像生成:根据文本描述生成高质量图像,用在广告设计、游戏开发等领域,提升创作效率。
  • 文本到视频生成:依据文本生成流畅、连贯的视频,适用视频广告、教育视频制作,减少人工成本。
  • 图像到视频生成:将静态图像转化为动态视频,用在动画制作、虚拟现实,丰富视觉体验。
  • 多模态内容创作:结合文本、图像和视频生成多样化内容,应用在多媒体教育、互动娱乐等,增强沉浸感。
  • 创意设计和艺术创作:辅助艺术家和设计师快速生成创意灵感和艺术作品,激发更多创意,提高创作效率。

发表评论