💡 站外导读:当手机AI助手还停留在简单问答时,用户早已渴望能一句话搞定复杂任务——订酒店、管行程、跨App操作。然而,传统智能体模型常陷入多任务冲突、工具调用不稳、长程推理失焦的困境。在端侧算力受限的背景下,如何用百亿参数实现千亿级模型的规划与执行能力,成为行业关键痛点。荣耀与复旦大学此次联合攻关,直击这一核心挑战。
MagicAgent是什么
MagicAgent是荣耀联合复旦大学推出的智能体基础模型,以32B密集架构和30B-A3B MoE架构实现百亿参数内最强性能。模型通过轻量级合成数据框架覆盖任务分解、工具规划、多约束调度等五大场景,采用”SFT+多目标强化学习”两阶段训练解决多任务冲突,创新提出χPO算法平衡探索与利用。模型在Worfbench、BFCL-v3等基准超越GPT-5.2、Kimi-K2等千亿级模型,是业界首个支持全场景泛化规划的智能体模型,已部署于荣耀Magic系列手机。
阅读目录

MagicAgent的主要功能
-
层次化任务分解:模型能将复杂用户指令拆解为可执行的子任务序列,支持多步骤依赖和并行执行。
-
工具增强规划:动态调用外部API和工具,通过推理-行动循环完成需要实时信息或外部能力的任务。
-
多约束调度:处理带有时空、资源等多重限制的计划制定,如行程规划和会议安排。
-
程序逻辑编排:模型能理解和执行具有条件分支、循环结构的工作流,维护任务间的复杂依赖关系。
-
长程工具执行:在数十轮交互中保持状态追踪,稳定完成需要多工具链式调用的长期任务。
MagicAgent的技术原理
- 合成数据生成:MagicAgent构建工具依赖图和参数共享图,定义原子计划作为最小语义单元,通过串接、聚合、分组等操作合成复杂轨迹,替代高成本的沙盒模拟,确保数据逻辑严谨且覆盖多样场景。
- 两阶段训练范式:第一阶段采用基于新颖性采样的监督微调,平衡多任务数据分布;第二阶段引入统一多目标奖励函数,将格式正确性与任务语义准确性结合,通过离线GRPO和在线χPO强化学习逐步提升泛化能力。
- χPO算法:算法针对稀疏奖励环境设计三层机制——token级熵正则化促进词汇多样性探索,思考-动作分离熵平滑允许推理阶段高不确定性而约束决策阶段,信息瓶颈则压缩冗余推理保留决策关键信息,实现探索与利用的动态平衡。
- MoE负载均衡:采用全局批次统计替代微批次约束,支持专家在任务维度自然分化;配合z-loss抑制路由logits极端值,解决多任务训练中的专家崩溃和参数闲置问题,保持推理效率与模型容量的解耦。
MagicAgent的项目地址
- arXiv技术论文:https://arxiv.org/pdf/2602.19000
MagicAgent的应用场景
-
智能设备控制:用户用自然语言指令操控手机完成复杂操作,如”在美团订西湖边酒店并查找附近高分餐厅”,模型自动分解任务和调用相应App接口执行。
-
企业流程自动化:在客服场景中处理跨系统业务,如根据用户提供的订单号和退款原因,自动查询库存状态、验证支付信息、发起退款流程并同步通知用户。
-
个性化旅行规划:结合用户时间窗口、预算限制和偏好标签,自动生成满足”直飞航班、特定城市停留天数、连续行程”等多约束条件的完整行程方案。
-
多智能体任务编排:可作为中枢节点解析高层意图,将”筹备产品发布会”拆解为场地、物料、嘉宾等并行子任务,分发给专业智能体执行并整合结果。
-
长程交互决策:模型能在数十轮对话中持续追踪状态,处理如”先查航班,再订酒店,最后租车”的链式依赖任务,根据中间结果动态调整后续计划。
📝 站长洞察 (Editor’s Insight)
MagicAgent的发布标志着智能体竞赛正式进入‘效率革命’阶段。其核心价值不在单纯堆参数,而是通过两阶段训练范式与χPO算法,系统性解决了多任务强化学习中探索与利用的平衡难题——这正是当前Agent落地的技术深水区。尤其值得关注的是,其‘工具依赖图+参数共享图’的数据合成框架,为行业提供了低成本、高泛化数据生成的新范式,有望降低Agent开发门槛。从战略视角看,荣耀将如此前沿模型率先部署于手机,折射出终端厂商争夺‘AI操作系统’主导权的野心:未来手机交互的本质,将是自然语言驱动的任务编排引擎。MagicAgent若能在开放域任务中持续验证稳定性,可能重塑移动生态的权力结构,推动从‘App孤岛’到‘意图直达’的范式迁移。
