Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: RAGEN – 训练大模型推理 Agent 的开源强化学习框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > RAGEN – 训练大模型推理 Agent 的开源强化学习框架
AIGC 资讯

RAGEN – 训练大模型推理 Agent 的开源强化学习框架

站外新闻
最近更新: 2026年6月8日 下午7:14
SHARE

RAGEN是什么

RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持PPO、GRPO等多种优化策略。RAGEN通过MDP形式化Agent与环境的交互,引入渐进式奖励归一化策略,有效解决了多轮强化学习中的不稳定性。RAGEN的代码结构经过优化,分为环境管理器、上下文管理器和代理代理三个模块,方便扩展和实验。支持多种环境,如Sokoban、FrozenLake等,展示了良好的泛化能力。

阅读目录
  • RAGEN是什么
  • RAGEN的主要功能
  • RAGEN的技术原理
  • RAGEN的项目地址
  • RAGEN的应用场景

RAGEN

RAGEN的主要功能

  • 多轮交互与轨迹优化:RAGEN通过StarPO(State-Thinking-Actions-Reward Policy Optimization)框架,将Agent与环境的交互形式化为马尔可夫决策过程(MDP),优化整个交互轨迹,不仅是单步动作。全轨迹优化策略有助于Agent在复杂环境中做出更合理的决策。
  • 强化学习算法支持:RAGEN支持多种强化学习算法,包括PPO、GRPO和BRPO等,为研究者提供了灵活的算法选择。
  • 易于扩展的环境支持:RAGEN支持多种环境,包括Sokoban、FrozenLake等,提供了添加自定义环境的接口,方便研究者进行实验。
  • 稳定性和效率提升:RAGEN通过基于方差的轨迹过滤、引入“评论家”以及解耦裁剪等技术,有效提高了训练的稳定性和效率。

RAGEN的技术原理

  • MDP形式化:RAGEN将Agent与环境的交互形式化为马尔可夫决策过程(MDP),其中状态和动作是token序列。支持LLM对环境动态进行推理。
  • StarPO框架:框架通过两个交替阶段进行训练:
    • Rollout阶段:给定初始状态,LLM生成多条推理引导的交互轨迹,每一步接收轨迹历史并生成动作。
    • Update阶段:生成轨迹后,使用重要性采样优化整个轨迹的预期奖励,非单步优化,实现长远推理。
  • 优化策略:StarPO支持多种强化学习算法,如PPO(近端策略优化)和GRPO(归一化奖励策略优化),适应不同的训练需求。
  • 渐进式奖励归一化策略:为解决多轮训练中的不稳定性,RAGEN引入了基于不确定性的过滤、移除KL惩罚和不对称PPO裁剪等策略。
  • 模块化设计:RAGEN采用模块化架构,包括环境状态管理器、上下文管理器和Agent代理,便于扩展和定制。

RAGEN的项目地址

  • 项目官网:https://ragen-ai.github.io/
  • Github仓库:https://github.com/RAGEN-AI/RAGEN
  • 技术论文:https://ragen-ai.github.io/pdf/RAGEN.pdf

RAGEN的应用场景

  • 智能对话系统:RAGEN可用于训练对话系统,在与用户的交互中具备更好的推理能力,提供更加自然和准确的回答。
  • 游戏AI:在复杂、动态的游戏环境中,RAGEN可以帮助Agent进行合理的策略规划和执行。
  • 自动化推理:RAGEN可以应用于数学问题解答、编程任务等自动化推理场景,提高系统解决问题的能力。
  • 企业知识管理:RAGEN可以用于企业内部文档助手,从公司Wiki、会议纪要中定位信息,生成项目报告或会议摘要。
  • 法律咨询:在法律领域,RAGEN可以匹配相关法律条文和判例,用通俗语言解释法律风险。
  • 内容创作:RAGEN可以用于技术博客撰写、新闻报道生成等场景。通过检索GitHub代码示例、技术文档等,RAGEN能整合信息输出结构化的教程。
QLIP – 英伟达推出的视觉标记化方法
腾讯云发布音视频 AI 品牌 WAND:内置六大自研模型与60+项AI能力
阿里通义重磅开源AgentScope Tuner:一站式自动优化引擎,让AI智能体越用越聪明
谷歌AI搜索频现拼写错误引用户流失,DuckDuckGo下载量飙升:AI准确性危机何解?
AI复活传奇!斯坦·李获合法授权数字重生, ElevenLabs 用生成式AI重塑其标志性声音
分享
Email 复制链接 打印
Share
上一篇 Being-M0 – 北大联合人民大学推出的人形机器人通用动作生成模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Being-M0 – 北大联合人民大学推出的人形机器人通用动作生成模型
AIGC 资讯
Hi3DGen – 港中文、字节、清华联合推出的3D几何生成框架
AIGC 资讯
EPLB – DeepSeek 开源的专家并行负载均衡器
AIGC 资讯
ImageRAG – 基于检索增强生成的图像生成技术
AIGC 资讯

相关推荐

AIGC 资讯

Agent TARS – 字节跳动开源的多模态 AI Agent 项目

站外新闻
AIGC 资讯

Open Code Reasoning – 英伟达开源的代码推理AI模型

站外新闻
AI 工具AIGC 资讯

阿里通义重磅发布PrismAudio:全球首创分解式思维链V2A框架,0.63秒为视频智能配音

站外新闻
AIGC PrismAudio 大模型 视频生成音频 阿里通义
AIGC 资讯

腾讯发布首个智能体行业应用LearnBuddy,打造专家同行的AI自主学习平台

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.