小红书开源Relax：全模态大模型强化学习训练引擎，性能飙升76%，支持图文音视频Agentic训练

💡 站外导读：当前大模型后训练正面临效率瓶颈与模态割裂的挑战。传统强化学习框架在异步训练、多模态支持与容错能力上存在短板，难以满足日益复杂的Agentic应用场景需求。如何实现高效、稳定且原生支持多模态的强化学习训练，成为行业亟待突破的关键技术难题。

Relax是什么

Relax 是小红书AI平台团队开源的面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。基于 Megatron-LM 与 SGLang 构建，采用服务化容错架构（Ray Serve）与 TransferQueue 异步数据总线，实现 Rollout、Actor、Critic 角色完全解耦。Relax支持文本、图像、音频、视频统一训练，在 Qwen3-Omni-30B 上验证四种模态 RL 稳定收敛。16×H800 全异步模式较 Colocate 提速 76%，较 veRL 提速 20%，具备分钟级故障恢复、弹性扩缩容及 R3 MoE 支持能力，已应用于 Qwen3 系列后训练。

阅读目录

Relax是什么
Relax的主要功能
Relax的技术原理
如何使用Relax
Relax的关键信息和使用要求
Relax的核心优势
Relax的项目地址
Relax的同类竞品对比
Relax的应用场景

📝 站长洞察 (Editor’s Insight)

Relax

Relax的主要功能

全模态RL训练：统一支持文本、图像、音频、视频的端到端强化学习后训练，已验证Qwen3-Omni系列稳定收敛。
异步训练架构：基于TransferQueue数据总线实现Rollout、Actor、Critic角色完全异步并行，消除GPU空转等待。
服务化容错：每个RL角色作为独立Ray Serve部署，具备故障隔离与分钟级自动恢复能力，支持训练不中断。
弹性扩缩容：通过HTTP REST API动态增减Rollout推理引擎，支持同集群与跨集群联邦推理资源调度。
分布式权重同步：DCS服务实现NCCL/TCP双通道低延迟权重广播，故障恢复无需回退磁盘Checkpoint。
Agentic多轮训练：原生支持多轮交互、工具调用、视觉上下文carry-over与Loss Masking，适配”执行→观察→决策”闭环。
算法套件支持：内置GRPO、GSPO、SAPO及On-Policy Distillation算法，提供规则奖励与GenRM生成式评估。

Relax的技术原理

服务化异步架构：将Actor、Critic、Rollout等角色封装为独立Ray Serve服务，通过TransferQueue进行流式微批传输，实现计算资源解耦与流水线并行，消除传统Colocate模式的串行等待瓶颈。
全模态数据流水线：内建Omni Processor统一处理图文音视频数据，支持模态感知并行与端到端异步流水，通过Field-Level存储机制允许同一样本的不同字段独立读写，适配RL多阶段计算特性。
容错与弹性机制：采用两级恢复策略（无状态角色原地重启、有状态角色全局恢复），配合DCS分布式Checkpoint服务实现GPU-GPU直接权重同步，避免磁盘IO开销，支持NCCL/TCP双通道适配跨集群拓扑。
异步一致性控制：通过max_staleness参数灵活控制On/Off-Policy模式，StreamingDataLoader支持增量消费，DCS异步权重广播与训练计算重叠，在吞吐与策略新鲜度间取得平衡。

如何使用Relax

环境部署：拉取官方 Docker 镜像（预装 CUDA、PyTorch、Megatron-LM、SGLang、Ray）：docker pull relaxrl/relax:latest，启动容器时挂载 GPU 与工作目录。
数据与模型准备：用 hf download 下载数据集（如 dapo-math-17k、multimodal-open-r1-8k-verified）与基础模型（Qwen3-4B、Qwen3-VL-4B、Qwen3-Omni-30B-A3B）至本地目录。
启动训练：设置 EXP_DIR 环境变量指向数据根目录，执行对应模态的 bash 脚本：
- 文本任务（8卡）：bash scripts/training/text/run-qwen3-4B-8xgpu.sh
- 视觉语言任务（8卡）：bash scripts/training/multimodal/run-qwen3-vl-4B-8xgpu.sh
- 全模态任务（16卡/双机）：bash scripts/entrypoint/spmd-multinode.sh scripts/training/multimodal/run-qwen3-30B-A3B-omni-16xgpu.sh
模型导出：训练完成后用 scripts/tools/convert_torch_dist_to_hf_bridge.py 将 Megatron DCP 格式权重转换为 HuggingFace 格式。

Relax的关键信息和使用要求

开源主体：小红书AI平台团队（RedAI Infra）于2026年4月15日正式开源。
产品定位：面向全模态与Agentic场景的高性能异步强化学习后训练引擎。
技术底座：基于Megatron-LM训练框架与SGLang推理引擎构建，采用Ray Serve服务化架构。
核心架构：六层服务化设计（Entrypoints→Orchestration→Components→Engine→Backends→Distributed），通过TransferQueue实现异步数据总线，DCS实现分布式权重同步。
性能指标：16×H800全异步模式较Colocate基线端到端提速76%，较veRL提速20%，MoE模型R3开销仅1.9%（veRL为32%）。
模态支持：原生支持文本、图像、音频、视频统一训练，已验证Qwen3-Omni-30B四模态稳定收敛2000+步。
算法覆盖：内置GRPO、GSPO、SAPO、On-Policy Distillation，支持规则奖励与GenRM生成式评估。
硬件配置：单节点至少8×H800（4B模型），全模态Omni训练需16×H800跨2节点，支持弹性扩缩容动态调整Rollout资源。

Relax的核心优势

全模态原生支持：内建图文音视频统一处理流水线，是少数支持 Qwen3-Omni 端到端后训练的开源框架，验证 2000+ 步稳定收敛。
极致异步性能：TransferQueue 实现 Rollout/Actor/Critic 完全解耦，16×H800 全异步模式较 Colocate 提速 76%，较 veRL 提速 20%。
服务化容错架构：基于 Ray Serve 的独立故障域设计，支持分钟级自动恢复与弹性扩缩容，DCS 实现秒级权重同步无需回退磁盘。
Agentic 原生设计：内置多轮交互、工具调用、视觉上下文 Carry-over 与 Loss Masking，适配”执行→观察→决策”闭环训练。
MoE 高效支持：R3（Rollout Routing Replay）开销仅 1.9%，相比 veRL 的 34% 性能损耗实现近零开销 replay。
生产级运维：HealthManager 自动监控、Metrics 多平台对接（WandB/TensorBoard）、Apprise 实时告警，支持 HTTP API 动态扩缩容。

Relax的项目地址

GitHub仓库：https://github.com/redai-infra/Relax
arXiv技术论文：https://arxiv.org/pdf/2604.11554

Relax的同类竞品对比

对比维度	Relax	veRL	OpenRLHF
开发团队	小红书 RedAI Infra 团队	字节跳动/清华大学/南京大学等联合团队	开源社区 (OpenRLHF Labs)
架构设计	服务化六层架构，Ray Serve 独立部署，TransferQueue 异步数据总线	HybridFlow 混合编程，3D-HybridEngine 显存原地复用，生成与训练默认耦合	Ray Placement Groups 调度，支持 Colocate/异步模式切换，架构相对传统
异步机制	完全异步解耦，Rollout/Actor/Critic 独立 GPU 集群，流式微批调度	支持分离与 Colocate，但缺乏细粒度流水线调度，Rollout 与 Train 存在同步点	支持 Colocate 与异步切换，但角色间耦合度高于 Relax
模态支持	全模态原生（文本/图像/音频/视频），验证 Qwen3-Omni 端到端训练	主要为文本，多模态支持尚不完善	文本为主，OpenRLHF-M 分支支持多模态
训练后端	Megatron-LM (TP/PP/CP/EP)	Megatron-LM / FSDP	DeepSpeed
推理后端	SGLang	vLLM / SGLang	vLLM
容错机制	服务级故障隔离，DCS 秒级权重同步，分钟级自动恢复，无需回退磁盘	单控制器统一调度，缺乏服务级隔离，故障需全局重启	基于 Ray Actor 容错，无独立服务域设计
弹性扩缩容	HTTP REST API 动态扩缩容，支持跨集群联邦推理	训练过程固定配置，不支持动态扩缩容	支持动态资源调整，但粒度较粗
性能表现	16×H800 较 veRL 提速 20%，较 Colocate 提速 76%，R3 开销仅 1.9%	全异步较 Colocate 提速 5.2×，但 R3 开销 32%，故障恢复慢	支持 70B+ 模型，消费级显卡友好
MoE 支持	原生支持，Near-Zero-Overhead R3	支持但 R3 开销大（32%）	支持
Agentic 能力	原生支持多轮交互、工具调用、视觉上下文 Carry-over	基础支持多轮，缺乏服务级会话状态管理	基础支持
适用场景	超大规模 Omni 模型 Agentic 训练、生产级高可用场景	万亿参数 MoE 模型、极致显存优化	70B+ 模型分布式训练、消费级显卡集群

Relax的应用场景

全模态大模型后训练：统一优化支持文本、图像、音频、视频输入的Omni模型（如Qwen3-Omni），实现跨模态理解与生成能力强化。
Agentic智能体开发：训练具备多轮工具调用、环境交互与自主决策能力的智能体，适配”执行→观察→决策”闭环任务（如DeepEyes多轮视觉推理）。
视觉语言任务优化：针对视觉问答（VQA）、图像描述、视频理解（NextQA）等任务进行RL后训练，提升多模态推理准确性。
数学与代码推理：通过GRPO/GSPO等算法增强大模型在数学问题求解（DAPO-Math）、逻辑推理与代码生成方面的能力。
MoE模型高效训练：支持Qwen3-30B-A3B等MoE架构的低成本R3重放训练，降低路由误差与计算开销。

📝 站长洞察 (Editor’s Insight)

Relax的开源标志着大模型后训练基础设施迈入全模态与异步原生时代。其核心价值在于通过服务化架构解耦训练角色，以TransferQueue异步数据总线消除GPU空转，实现76%的性能飞跃，这直接回应了行业对训练效率的渴求。更值得关注的是，它作为少数能统一处理图文音视频的RL引擎，为Qwen3-Omni等下一代多模态模型提供了稳定收敛的后训练底座。其分钟级容错与弹性扩缩容设计，体现了从实验室demo到生产级部署的工程思维，是AI Infra领域的重要进步。

小红书开源Relax：全模态大模型强化学习训练引擎，性能飙升76%，支持图文音视频Agentic训练

Relax是什么

Relax的主要功能

Relax的技术原理

如何使用Relax

Relax的关键信息和使用要求

Relax的核心优势

Relax的项目地址

Relax的同类竞品对比

Relax的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

[AI生图咒语] 严肃职业肖像摄影提示词 (LinkedIn/商务高管头像)

Cosmos 3 Edge – 英伟达开源的 4B 参数世界模型

BigMac – 小红书开源的多模态大模型流水并行训练框架

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Relax是什么

Relax的主要功能

Relax的技术原理

如何使用Relax

Relax的关键信息和使用要求

Relax的核心优势

Relax的项目地址

Relax的同类竞品对比

Relax的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复