Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 小红书开源Relax:全模态大模型强化学习训练引擎,性能飙升76%,支持图文音视频Agentic训练
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 小红书开源Relax:全模态大模型强化学习训练引擎,性能飙升76%,支持图文音视频Agentic训练
AI 工具AIGC 资讯

小红书开源Relax:全模态大模型强化学习训练引擎,性能飙升76%,支持图文音视频Agentic训练

站外新闻
最近更新: 2026年5月25日 下午10:29
全模态 大模型 小红书 开源引擎 强化学习
SHARE

💡 站外导读:当前大模型后训练正面临效率瓶颈与模态割裂的挑战。传统强化学习框架在异步训练、多模态支持与容错能力上存在短板,难以满足日益复杂的Agentic应用场景需求。如何实现高效、稳定且原生支持多模态的强化学习训练,成为行业亟待突破的关键技术难题。

Relax是什么

Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建,采用服务化容错架构(Ray Serve)与 TransferQueue 异步数据总线,实现 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、图像、音频、视频统一训练,在 Qwen3-Omni-30B 上验证四种模态 RL 稳定收敛。16×H800 全异步模式较 Colocate 提速 76%,较 veRL 提速 20%,具备分钟级故障恢复、弹性扩缩容及 R3 MoE 支持能力,已应用于 Qwen3 系列后训练。

阅读目录
  • Relax是什么
  • Relax的主要功能
  • Relax的技术原理
  • 如何使用Relax
  • Relax的关键信息和使用要求
  • Relax的核心优势
  • Relax的项目地址
  • Relax的同类竞品对比
  • Relax的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Relax

Relax的主要功能

  • 全模态RL训练:统一支持文本、图像、音频、视频的端到端强化学习后训练,已验证Qwen3-Omni系列稳定收敛。
  • 异步训练架构:基于TransferQueue数据总线实现Rollout、Actor、Critic角色完全异步并行,消除GPU空转等待。
  • 服务化容错:每个RL角色作为独立Ray Serve部署,具备故障隔离与分钟级自动恢复能力,支持训练不中断。
  • 弹性扩缩容:通过HTTP REST API动态增减Rollout推理引擎,支持同集群与跨集群联邦推理资源调度。
  • 分布式权重同步:DCS服务实现NCCL/TCP双通道低延迟权重广播,故障恢复无需回退磁盘Checkpoint。
  • Agentic多轮训练:原生支持多轮交互、工具调用、视觉上下文carry-over与Loss Masking,适配”执行→观察→决策”闭环。
  • 算法套件支持:内置GRPO、GSPO、SAPO及On-Policy Distillation算法,提供规则奖励与GenRM生成式评估。

Relax的技术原理

  • 服务化异步架构:将Actor、Critic、Rollout等角色封装为独立Ray Serve服务,通过TransferQueue进行流式微批传输,实现计算资源解耦与流水线并行,消除传统Colocate模式的串行等待瓶颈。
  • 全模态数据流水线:内建Omni Processor统一处理图文音视频数据,支持模态感知并行与端到端异步流水,通过Field-Level存储机制允许同一样本的不同字段独立读写,适配RL多阶段计算特性。
  • 容错与弹性机制:采用两级恢复策略(无状态角色原地重启、有状态角色全局恢复),配合DCS分布式Checkpoint服务实现GPU-GPU直接权重同步,避免磁盘IO开销,支持NCCL/TCP双通道适配跨集群拓扑。
  • 异步一致性控制:通过max_staleness参数灵活控制On/Off-Policy模式,StreamingDataLoader支持增量消费,DCS异步权重广播与训练计算重叠,在吞吐与策略新鲜度间取得平衡。

如何使用Relax

  • 环境部署:拉取官方 Docker 镜像(预装 CUDA、PyTorch、Megatron-LM、SGLang、Ray):docker pull relaxrl/relax:latest,启动容器时挂载 GPU 与工作目录。
  • 数据与模型准备:用 hf download 下载数据集(如 dapo-math-17k、multimodal-open-r1-8k-verified)与基础模型(Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B)至本地目录。
  • 启动训练:设置 EXP_DIR 环境变量指向数据根目录,执行对应模态的 bash 脚本:
    • 文本任务(8卡):bash scripts/training/text/run-qwen3-4B-8xgpu.sh
    • 视觉语言任务(8卡):bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh
    • 全模态任务(16卡/双机):bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
  • 模型导出:训练完成后用 scripts/tools/convert_torch_dist_to_hf_bridge.py 将 Megatron DCP 格式权重转换为 HuggingFace 格式。

Relax的关键信息和使用要求

  • 开源主体:小红书AI平台团队(RedAI Infra)于2026年4月15日正式开源。
  • 产品定位:面向全模态与Agentic场景的高性能异步强化学习后训练引擎。
  • 技术底座:基于Megatron-LM训练框架与SGLang推理引擎构建,采用Ray Serve服务化架构。
  • 核心架构:六层服务化设计(Entrypoints→Orchestration→Components→Engine→Backends→Distributed),通过TransferQueue实现异步数据总线,DCS实现分布式权重同步。
  • 性能指标:16×H800全异步模式较Colocate基线端到端提速76%,较veRL提速20%,MoE模型R3开销仅1.9%(veRL为32%)。
  • 模态支持:原生支持文本、图像、音频、视频统一训练,已验证Qwen3-Omni-30B四模态稳定收敛2000+步。
  • 算法覆盖:内置GRPO、GSPO、SAPO、On-Policy Distillation,支持规则奖励与GenRM生成式评估。
  • 硬件配置:单节点至少8×H800(4B模型),全模态Omni训练需16×H800跨2节点,支持弹性扩缩容动态调整Rollout资源。

Relax的核心优势

  • 全模态原生支持:内建图文音视频统一处理流水线,是少数支持 Qwen3-Omni 端到端后训练的开源框架,验证 2000+ 步稳定收敛。
  • 极致异步性能:TransferQueue 实现 Rollout/Actor/Critic 完全解耦,16×H800 全异步模式较 Colocate 提速 76%,较 veRL 提速 20%。
  • 服务化容错架构:基于 Ray Serve 的独立故障域设计,支持分钟级自动恢复与弹性扩缩容,DCS 实现秒级权重同步无需回退磁盘。
  • Agentic 原生设计:内置多轮交互、工具调用、视觉上下文 Carry-over 与 Loss Masking,适配”执行→观察→决策”闭环训练。
  • MoE 高效支持:R3(Rollout Routing Replay)开销仅 1.9%,相比 veRL 的 34% 性能损耗实现近零开销 replay。
  • 生产级运维:HealthManager 自动监控、Metrics 多平台对接(WandB/TensorBoard)、Apprise 实时告警,支持 HTTP API 动态扩缩容。

Relax的项目地址

  • GitHub仓库:https://github.com/redai-infra/Relax
  • arXiv技术论文:https://arxiv.org/pdf/2604.11554

Relax的同类竞品对比

对比维度 Relax veRL OpenRLHF
开发团队 小红书 RedAI Infra 团队 字节跳动/清华大学/南京大学等联合团队 开源社区 (OpenRLHF Labs)
架构设计 服务化六层架构,Ray Serve 独立部署,TransferQueue 异步数据总线 HybridFlow 混合编程,3D-HybridEngine 显存原地复用,生成与训练默认耦合 Ray Placement Groups 调度,支持 Colocate/异步模式切换,架构相对传统
异步机制 完全异步解耦,Rollout/Actor/Critic 独立 GPU 集群,流式微批调度 支持分离与 Colocate,但缺乏细粒度流水线调度,Rollout 与 Train 存在同步点 支持 Colocate 与异步切换,但角色间耦合度高于 Relax
模态支持 全模态原生(文本/图像/音频/视频),验证 Qwen3-Omni 端到端训练 主要为文本,多模态支持尚不完善 文本为主,OpenRLHF-M 分支支持多模态
训练后端 Megatron-LM (TP/PP/CP/EP) Megatron-LM / FSDP DeepSpeed
推理后端 SGLang vLLM / SGLang vLLM
容错机制 服务级故障隔离,DCS 秒级权重同步,分钟级自动恢复,无需回退磁盘 单控制器统一调度,缺乏服务级隔离,故障需全局重启 基于 Ray Actor 容错,无独立服务域设计
弹性扩缩容 HTTP REST API 动态扩缩容,支持跨集群联邦推理 训练过程固定配置,不支持动态扩缩容 支持动态资源调整,但粒度较粗
性能表现 16×H800 较 veRL 提速 20%,较 Colocate 提速 76%,R3 开销仅 1.9% 全异步较 Colocate 提速 5.2×,但 R3 开销 32%,故障恢复慢 支持 70B+ 模型,消费级显卡友好
MoE 支持 原生支持,Near-Zero-Overhead R3 支持但 R3 开销大(32%) 支持
Agentic 能力 原生支持多轮交互、工具调用、视觉上下文 Carry-over 基础支持多轮,缺乏服务级会话状态管理 基础支持
适用场景 超大规模 Omni 模型 Agentic 训练、生产级高可用场景 万亿参数 MoE 模型、极致显存优化 70B+ 模型分布式训练、消费级显卡集群

Relax的应用场景

  • 全模态大模型后训练:统一优化支持文本、图像、音频、视频输入的Omni模型(如Qwen3-Omni),实现跨模态理解与生成能力强化。
  • Agentic智能体开发:训练具备多轮工具调用、环境交互与自主决策能力的智能体,适配”执行→观察→决策”闭环任务(如DeepEyes多轮视觉推理)。
  • 视觉语言任务优化:针对视觉问答(VQA)、图像描述、视频理解(NextQA)等任务进行RL后训练,提升多模态推理准确性。
  • 数学与代码推理:通过GRPO/GSPO等算法增强大模型在数学问题求解(DAPO-Math)、逻辑推理与代码生成方面的能力。
  • MoE模型高效训练:支持Qwen3-30B-A3B等MoE架构的低成本R3重放训练,降低路由误差与计算开销。

📝 站长洞察 (Editor’s Insight)

Relax的开源标志着大模型后训练基础设施迈入全模态与异步原生时代。其核心价值在于通过服务化架构解耦训练角色,以TransferQueue异步数据总线消除GPU空转,实现76%的性能飞跃,这直接回应了行业对训练效率的渴求。更值得关注的是,它作为少数能统一处理图文音视频的RL引擎,为Qwen3-Omni等下一代多模态模型提供了稳定收敛的后训练底座。其分钟级容错与弹性扩缩容设计,体现了从实验室demo到生产级部署的工程思维,是AI Infra领域的重要进步。

Bloony
阿里Wan2.7-Video:全模态AI视频创作模型,支持5角色控制与电影级运镜
阶跃星辰StepAudio 2.5 TTS发布:语境感知AI语音合成,3秒克隆音色,告别‘AI味’朗读
Replika
NextML
TAGGED:全模态大模型小红书开源引擎强化学习
分享
Email 复制链接 打印
Share
上一篇 Kimi K2系列API正式下线:详解停服影响、用户迁移指南与K2.6新版本核心优势
下一篇 量子芯片科技感占位特色图 xAI Grok Build:终结手动编码!Grok Build 全链路自动化编程智能体深度解析
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

MiniMax Music 2.6深度评测:20秒极速生成、14种结构控制,AI音乐创作进入可控时代
AI 工具 AIGC 资讯
流光脑波AI大脑占位特色图
全球AI监管硬核转向:美英强制测试成企业入场券,安全能力=核心竞争力
AIGC 资讯 最新趋势
国产大模型重磅突破!昆仑万维SkyClaw-v1.0 Agent模型发布:百万上下文、多步任务执行,性能直逼顶级旗舰
AI 工具 AIGC 资讯
谷歌DeepMind推出AlphaProof Nexus:AI攻克56年数学悬题,颠覆科学发现范式
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具

Charisma

remaker
AI 工具AIGC 资讯

腾讯混元 Hy-MT2 开源翻译大模型:7B 参数性能碾压 Gemini,440MB 量化版让手机变身离线翻译机

站外新闻
Hy-MT2 开源模型 端侧部署 翻译大模型 腾讯混元
AIGC 资讯最新趋势

OpenAI高薪招安全研究员:年薪最高44.5万美元,要求「良好品位」引热议

站外新闻
AI安全 openai 人工智能 安全研究员 递归式自我改进
AIGC 资讯

首批通过《生成式人工智能服务管理暂行办法》备案的八个大模型官方地址

OZ
AIGC 国产 大模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI安全 AI工具 AI智能体 AI生成内容 AI绘画 AI编程 AI编程工具 AI视频 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos DALL-E3 DeepSeek Gemini GPT-5.5 meta Midjourney MoE MoE架构 MoE模型 NVIDIA openai Pika prompt runway stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 办公自动化 华为昇腾 咒语 商汤科技 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 女性 字节跳动 室内设计 家居 展台 建筑 建筑设计 开发者工具 开源 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微摄影 微软 提示词 教程 新加坡 新闻 早报 智能体 智能体编程 月之暗面 水果 海报设计 清华大学 游戏 生成式AI 破碎 科幻 窗 端侧AI 网络安全 背景 腾讯混元 芭比 英伟达 视频编辑 语音合成 赛博朋克 运动 阶跃星辰 阿里通义 阿里通义千问 风景 马斯克
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.