Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架
AIGC 资讯

DanceGRPO – 字节Seed联合港大推出的统一视觉生成强化学习框架

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

DanceGRPO是什么

DanceGRPO 是字节跳动 Seed 和香港大学联合推出的首个统一视觉生成强化学习框架。将强化学习应用在视觉生成领域,覆盖两大生成范式(diffusion 和 rectified flow)、三项任务(文本到图像、文本到视频、图像到视频)、四种基础模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)及五类奖励模型(图像视频美学、图文对齐、视频动态质量、二元奖励)。DanceGRPO 解决现有视觉生成任务中 RLHF 方案的局限性,实现在多种生成范式、任务、基础模型和奖励模型之间的无缝适应,显著提升模型性能,降低显存压力,适应大型 prompt 数据集训练,能迁移到 rectified flow 和视频生成模型。

阅读目录
  • DanceGRPO是什么
  • DanceGRPO的主要功能
  • DanceGRPO的技术原理
  • DanceGRPO的项目地址
  • DanceGRPO的应用场景

DanceGRPO

DanceGRPO的主要功能

  • 提升视觉生成质量:让生成的图像和视频更符合人类审美,更逼真、自然。
  • 统一多种生成范式和任务:适用于文本到图像、文本到视频、图像到视频等多种任务。
  • 适应多种模型和奖励:兼容多种基础模型和奖励模型,满足多样化需求。
  • 提高训练效率和稳定性:降低显存压力,提高训练效率,增强训练稳定性。
  • 增强人类反馈学习能力:让模型更好地从人类反馈中学习,生成更符合人类期望的内容。

DanceGRPO的技术原理

  • 将去噪过程建模为马尔可夫决策过程:将 diffusion 模型和 rectified flows 的去噪过程建模为马尔可夫决策过程(MDP),将 prompt 作为状态的一部分,将去噪过程中的每一步操作视为一个动作,为强化学习的应用提供基础框架。
  • 基于 SDE 采样方程:为满足 GRPO 对随机探索的要求,将 diffusion 模型和 rectified flows 的采样过程统一表述为随机微分方程(SDE)的形式。对于 diffusion 模型,正向 SDE 描述数据逐渐加噪的过程,对应的逆向 SDE 用生成数据,对于 rectified flows,基于引入 SDE 实现逆向过程的随机性,为强化学习提供必要的随机探索机制。
  • 应用 GRPO 目标函数进行优化:借鉴 Deepseek-R1 中的 GRPO 策略,给定一个 prompt,生成一组输出样本,基于最大化 GRPO 的目标函数优化策略模型。目标函数考虑奖励信号及不同样本之间的优势函数,模型能在训练过程中更好地学习到如何根据奖励信号调整生成策略,提高生成结果的质量和与人类偏好的一致性。
  • 初始化噪声和时间步选择策略:在 DanceGRPO 框架中,初始化噪声是一个关键因素。为避免 reward hacking 现象,DanceGRPO 为来自相同文本提示的样本分配共享的初始化噪声。DanceGRPO 用时间步选择策略,基于选择适当的优化时间步,在不降低性能的前提下减少计算量,提高训练效率。
  • 多奖励模型的集成与优势函数聚合:为确保训练的稳定性和生成结果的高质量,DanceGRPO 在实践中用多个奖励模型。由于不同的奖励模型可能具有不同的量纲和分布,DanceGRPO 基于优势函数聚合的方法,更好地平衡不同奖励模型的贡献,让模型在优化过程中综合考虑多个方面的评价指标,生成更符合人类期望的视觉内容。

DanceGRPO的项目地址

  • 项目官网:https://dancegrpo.github.io/
  • GitHub仓库:https://github.com/XueZeyue/DanceGRPO
  • arXiv技术论文:https://arxiv.org/pdf/2505.07818

DanceGRPO的应用场景

  • 文本到图像生成:根据文本描述生成高质量图像,用在广告设计、游戏开发等领域,提升创作效率。
  • 文本到视频生成:依据文本生成流畅、连贯的视频,适用视频广告、教育视频制作,减少人工成本。
  • 图像到视频生成:将静态图像转化为动态视频,用在动画制作、虚拟现实,丰富视觉体验。
  • 多模态内容创作:结合文本、图像和视频生成多样化内容,应用在多媒体教育、互动娱乐等,增强沉浸感。
  • 创意设计和艺术创作:辅助艺术家和设计师快速生成创意灵感和艺术作品,激发更多创意,提高创作效率。
腾讯混元世界模型1.1开源:单卡秒级推理的3D世界生成,如何重塑内容创作与工业仿真?
上交大小红书联手打造LoopTool:自动化数据进化框架,显著提升大模型工具调用能力
清华腾讯强强联手!Bee全栈多模态大模型开源,1500万数据集+8B参数刷新SOTA
Llama 4 – Meta 开源的多模态系列AI模型,重夺开源王座
Happy开源AI编程神器:手机远程监控Claude Code,实时掌控开发任务进度
分享
Email 复制链接 打印
Share
上一篇 AI-ClothingTryOn – AI虚拟试穿应用,支持生成多版本试衣效果
下一篇 文心大模型X1 Turbo – 百度推出的最新深度思考型模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯最新趋势

DeepSeek-V4 百万上下文大模型发布:Agent代码能力首超闭源,Pro/Flash双版开源引领普惠AI

站外新闻
Agent能力 AI推理优化 DeepSeek-V4 开源大模型 百万上下文大模型
AIGC 资讯

微信开放平台发布AI生态接入指引,小程序可支持微信AI直接调用

站外新闻
AI 工具AIGC 资讯

上海AI Lab发布InternVL3.5:开源多模态大模型全面升级,推理能力超越GPT-5,支持9种尺寸与高效部署

站外新闻
GPT-OSS InternVL3.5 上海人工智能实验室 多模态大模型 开源AI模型
AI 工具AIGC 资讯

卢宗青团队重磅开源Being-H0.5:通用机器人模型突破,实现跨形态策略迁移与真实部署

站外新闻
UniHand-2.0 统一动作空间 跨形态操控 通用机器人模型 部署稳定性
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.