💡 站外导读:随着大模型能力向垂直专业领域深入,数学推理成为衡量模型逻辑与认知能力的关键赛道。传统模型在处理复杂数学问题,特别是图文混合的几何、逻辑题时,常面临推理过程冗长、准确率不足、且对中文语境适配差等痛点。网易有道AI团队此次开源的Confucius4模型,正是针对这一核心挑战,通过创新的训练范式与优化策略,旨在为开发者和企业提供一个高效、精准且完全免费的数学推理解决方案。
Confucius4是什么
Confucius4是网易有道AI团队基于Qwen3.5-27B架构推出的开源多模态大模型,专为高级数学推理场景设计。模型通过迭代SFT+RL训练范式、纯文本推理数据增强及精细化CoT优化,在同等规模模型中达到SOTA性能,同时实现推理链长度降低43.2%。模型针对中文用户定向优化,输出更符合中文语言习惯与文化背景,支持免费商用。
阅读目录

Confucius4的主要功能
-
高级多模态数学推理:支持图文混合输入,擅长解答几何、代数、逻辑等复杂数学问题,在Math-Hard-500、MathVision、logicVista等基准上表现优异。
-
迭代SFT+RL训练优化:采用图像增益过滤构建高性价比训练集,通过迭代监督微调与强化学习持续提升文本与多模态场景性能。
-
纯文本推理增强:在SFT阶段注入纯文本推理数据,强化模型推理底座,Math-Hard-500性能提升23.2%。
-
紧凑思维链生成:通过精细化CoT重构与长度感知RL机制,消除冗余推理步骤,实现准确与效率的平衡。
-
中文定向优化:针对中文数据专项训练,输出内容更贴合中文用户的表达习惯与文化语境。
-
开源可商用:基于Apache 2.0协议发布,支持自由修改、分发及商业应用。
Confucius4的技术原理
-
图像增益过滤:自动识别并过滤低价值视觉冗余信息,构建高性价比多模态训练数据集,降低训练成本。
-
迭代SFT+RL范式:交替进行监督微调与强化学习,形成”训练-评估-优化”闭环,持续拔高模型在文本与多模态任务上的推理上限。
-
混合训练策略:采用”文本推理+多模态解题”的混合训练范式,让纯文本推理能力迁移至多模态场景,实现能力协同增益。
-
精细化CoT重构:在SFT阶段对思维链进行人工重构,剔除冗余步骤,保留完整逻辑,生成简洁且高质量的推理链。
-
长度感知优势机制(Length-Aware Advantage):在RL阶段引入探索-利用权衡,对非难题约束推理长度,有效消除”过度思考”现象。
如何使用Confucius4
-
环境准备:确认运行环境满足Qwen3.5模型要求,安装
transformers等必要依赖库。 -
加载模型:使用
AutoModelForCausalLM和AutoProcessor从HuggingFace或ModelScope加载netease-youdao/Confucius4预训练模型。 -
编码图像:涉及多模态输入,使用
base64将目标图片编码为数据URI格式。 -
构造消息:按系统提示词模板组装对话消息,系统角色固定为
You are a helpful assistant.。 -
应用模板:调用
processor.apply_chat_template处理消息,生成模型可用的输入文本。 -
模型推理:设置
Temperature=0.6、TopP=0.95、TopK=20,调用model.generate生成结果。 -
解析输出:通过vLLM API调用时,从
message.content获取最终答案,从message.reasoning获取推理过程。
Confucius4的核心优势
-
同等规模SOTA性能:在Math-Hard-500(0.814)、Math-Figure(0.907)、MathVision(0.724)等多个视觉数学基准上领先同规模模型。
-
推理效率显著提升:CoT长度减少43.2%,在保持准确率的同时大幅降低输出token数量,减少推理耗时与计算成本。
-
中英文场景兼顾:模型具备强大的英文数学推理能力,通过中文数据定向优化,输出更符合本土用户阅读习惯。
-
无缝兼容Qwen生态:环境要求与Qwen3.5完全一致,可直接使用Transformers或vLLM加载,零额外适配成本。
Confucius4的项目地址
- HuggingFace模型库:https://huggingface.co/netease-youdao/Confucius4
Confucius4的同类竞品对比
| 基准测试 | Confucius4 | Qwen3.5-27B | Qwen3.6-27B |
|---|---|---|---|
| Math-Hard-500 | 0.814 | 0.582 | 0.756 |
| Math-Figure | 0.907 | 0.866 | 0.865 |
| MathVision (testmini) | 0.724 | 0.651 | 0.648 |
| logicVista | 0.779 | 0.734 | 0.743 |
| MathVerse | 0.876 | 0.866 | 0.865 |
| MathVista (testmini) | 0.874 | 0.874 | 0.871 |
| DynaMath | 0.893 | 0.877 | 0.856 |
| We-Math | 0.912 | 0.913 | 0.907 |
Confucius4的应用场景
-
K12与高等教育数学辅导:支持图文混合输入,解答几何、代数、概率等复杂数学题,提供可解释的逐步推理过程,适合作为智能助教。
-
数学竞赛与奥赛培训:在竞赛级难题(Math-Hard-500)上准确率达81.4%,适合高难度题型训练与解题策略分析。
-
智能题库解析与作业批改:自动识别试卷、练习册中的图像题目,生成完整推理链与最终答案,辅助教师高效批改。
-
教育硬件与在线学习平台集成:兼容Qwen3.5生态,可快速接入学习机、教育APP,通过vLLM API提供低延迟实时解题服务。
-
科研学术辅助:解析论文中的数学图表、公式推导与逻辑证明,帮助科研人员快速理解复杂学术材料中的视觉数学内容。
📝 站长洞察 (Editor’s Insight)
Confucius4的发布,标志着开源社区在专业多模态推理领域的又一次重要突破。它并非泛泛的全能模型,而是选择了“数学推理”这一极具挑战性也极具价值的垂直领域进行深度攻坚。其核心亮点在于“效率”与“精度”的协同提升:通过精细化的CoT重构和长度感知RL机制,将推理链长度压缩43%,这直接转化为推理成本和时延的显著下降,对商业部署和实时应用至关重要。从行业趋势看,这印证了当前大模型发展正从“规模竞赛”转向“效能与专精竞赛”。基于强大的Qwen生态进行定向优化,并开源可商用,极大降低了企业接入门槛。预计此类模型将率先在教育科技(智能教辅、自适应学习)、金融量化分析、工业研发设计等需要复杂逻辑与图表理解的场景加速落地,推动AI从“聊天”向“解题”和“创造”价值实质性迈进。
