Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: RAGEN – 训练大模型推理 Agent 的开源强化学习框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > RAGEN – 训练大模型推理 Agent 的开源强化学习框架
AIGC 资讯

RAGEN – 训练大模型推理 Agent 的开源强化学习框架

站外新闻
最近更新: 2026年6月8日 下午7:14
SHARE

RAGEN是什么

RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持PPO、GRPO等多种优化策略。RAGEN通过MDP形式化Agent与环境的交互,引入渐进式奖励归一化策略,有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化,分为环境管理器、上下文管理器和代理代理三个模块,方便扩展和实验。支持多种环境,如Sokoban、FrozenLake等,展示了良好的泛化能力。

阅读目录
  • RAGEN是什么
  • RAGEN的主要功能
  • RAGEN的技术原理
  • RAGEN的项目地址
  • RAGEN的应用场景

RAGEN

RAGEN的主要功能

  • 多轮交互与轨迹优化:RAGEN通过StarPO(State-Thinking-Actions-Reward Policy Optimization)框架,将Agent与环境的交互形式化为马尔可夫决策过程(MDP),优化整个交互轨迹,不仅是单步动作。全轨迹优化策略有助于Agent在复杂环境中做出更合理的决策。
  • 强化学习算法支持:RAGEN支持多种强化学习算法,包括PPO、GRPO和BRPO等,为研究者提供了灵活的算法选择。
  • 易于扩展的环境支持:RAGEN支持多种环境,包括Sokoban、FrozenLake等,提供了添加自定义环境的接口,方便研究者进行实验。
  • 稳定性和效率提升:RAGEN通过基于方差的轨迹过滤、引入“评论家”以及解耦裁剪等技术,有效提高了训练的稳定性和效率。

RAGEN的技术原理

  • MDP形式化:RAGEN将Agent与环境的交互形式化为马尔可夫决策过程(MDP),其中状态和动作是token序列。支持LLM对环境动态进行推理。
  • StarPO框架:框架通过两个交替阶段进行训练:
    • Rollout阶段:给定初始状态,LLM生成多条推理引导的交互轨迹,每一步接收轨迹历史并生成动作。
    • Update阶段:生成轨迹后,使用重要性采样优化整个轨迹的预期奖励,非单步优化,实现长远推理。
  • 优化策略:StarPO支持多种强化学习算法,如PPO(近端策略优化)和GRPO(归一化奖励策略优化),适应不同的训练需求。
  • 渐进式奖励归一化策略:为解决多轮训练中的不稳定性,RAGEN引入了基于不确定性的过滤、移除KL惩罚和不对称PPO裁剪等策略。
  • 模块化设计:RAGEN采用模块化架构,包括环境状态管理器、上下文管理器和Agent代理,便于扩展和定制。

RAGEN的项目地址

  • 项目官网:https://ragen-ai.github.io/
  • Github仓库:https://github.com/RAGEN-AI/RAGEN
  • 技术论文:https://ragen-ai.github.io/pdf/RAGEN.pdf

RAGEN的应用场景

  • 智能对话系统:RAGEN可用于训练对话系统,在与用户的交互中具备更好的推理能力,提供更加自然和准确的回答。
  • 游戏AI:在复杂、动态的游戏环境中,RAGEN可以帮助Agent进行合理的策略规划和执行。
  • 自动化推理:RAGEN可以应用于数学问题解答、编程任务等自动化推理场景,提高系统解决问题的能力。
  • 企业知识管理:RAGEN可以用于企业内部文档助手,从公司Wiki、会议纪要中定位信息,生成项目报告或会议摘要。
  • 法律咨询:在法律领域,RAGEN可以匹配相关法律条文和判例,用通俗语言解释法律风险。
  • 内容创作:RAGEN可以用于技术博客撰写、新闻报道生成等场景。通过检索GitHub代码示例、技术文档等,RAGEN能整合信息输出结构化的教程。
快手OneSearch框架深度解析:端到端生成式电商搜索革命,订单量提升3.22%的三大技术突破
仅1.75公斤!海尔W3 AI外骨骼机器人颠覆行业,轻量化与智能助力双重突破
GR00T N1 – 英伟达开源的人形机器人基础模型
DeepRAG – 中科院、中科大和腾讯微信AI部联合推出的新型检索增强生成框架
SeedVR – 南洋理工和字节跳动推出的扩散变换器模型,实现通用视频修复
分享
Email 复制链接 打印
Share
上一篇 Being-M0 – 北大联合人民大学推出的人形机器人通用动作生成模型
下一篇 Step R-mini – 阶跃星辰推出的 Step 系列首个推理模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯
微软研究院发布Code Researcher:AI Agent深度挖掘代码库与提交历史,自动化修复系统级崩溃
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

腾讯清华重磅开源MindOmni:强化学习驱动的多模态推理生成模型,重塑视觉AI边界

站外新闻
多模态大模型 强化学习 推理生成 腾讯ARC Lab 视觉语言模型
AIGC 资讯

MILS – Meta AI 推出的零样本生成高质量多模态描述方法

站外新闻
AI 工具AIGC 资讯

突破数据瓶颈!Meta LSP自我博弈技术:大模型无需海量数据也能变强

站外新闻
KL散度 meta 强化学习 自我博弈
AI 工具AIGC 资讯

突破分钟级长视频生成瓶颈:Meta&普林斯顿推出LinGen,线性复杂度实现单GPU高效生成

站外新闻
AIGC meta 普林斯顿大学
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.