💡 站外导读:在AI智能体竞赛白热化的当下,企业面临两大核心痛点:一是复杂长周期任务中,模型因上下文窗口有限而频繁“失忆”导致目标偏移;二是智能体推理的“思考税”过高,响应延迟与部署成本成为规模化落地的瓶颈。英伟达此次开源Nemotron 3 Super,正是瞄准了这两大行业关键瓶颈,旨在为企业提供一套高效、可靠且经济的大脑引擎。
Nemotron 3 Super是什么
Nemotron 3 Super是英伟达推出的1200亿参数开源AI模型,采用Mamba-MoE混合架构,专为智能体应用优化。模型支持100万token超长上下文,推理速度提升3倍,吞吐量提升5倍。在OpenClaw任务成功率表现优异,性能接近Claude Opus 4.6。英伟达同时开源了超10万亿token的训练数据、完整方法论及15个强化学习环境,是企业级多智能体系统的理想选择。
阅读目录

Nemotron 3 Super的主要功能
- 超长上下文记忆:支持100万token上下文窗口,让智能体在复杂多步任务中保持完整的工作流状态,防止目标偏移。
- 智能体任务执行: 在OpenClaw等智能体基准测试中达到85.6%任务成功率,性能直逼Claude Opus 4.6等顶尖闭源模型。
- 推理速度加速:通过多Token预测技术实现原生投机解码,让推理速度提升3倍,满足实时交互需求。
- 高吞吐量服务:模型相比前代模型吞吐量提升5倍,支持大规模并发智能体部署,降低多智能体应用成本。
- 高精度工具调用:可在庞大函数库中可靠导航操作,防止网络安全等高风险关键环境中的执行错误。
- 代码智能体开发:模型能一次性加载整个代码库到上下文,实现端到端代码生成、漏洞修复与自动化调试。
- 财务分析处理:可将数千页报告直接载入内存,省去冗长对话中反复重新推理的麻烦,大幅提升工作效率。
Nemotron 3 Super的技术原理
- Mamba-MoE混合架构:模型采用88层网络结构,周期性交替排列Mamba-2层与Transformer注意力层。Mamba-2层提供线性时间复杂度的序列建模效率,少量Transformer层作为全局锚点负责跨位置长距离信息路由和高精度推理,在保持强大建模能力的同时显著提升推理吞吐量。
- LatentMoE隐式混合专家架构:英伟达首创的新型MoE设计,在路由和专家计算前先将token从隐藏维度投影到更小的潜在维度。路由和专家计算在这个压缩空间中进行,使参数加载和通信量直接缩小数倍,节省的资源用于增加专家总数和激活专家数,实现”花1个专家成本激活4个专家”的效果,在几乎不变推理成本下提升模型准确率。
- 多Token预测加速:模型在每个位置同时预测未来多个token,这不仅迫使模型学习多步因果关系和长远文本结构提升质量,更关键的是实现了原生投机解码——辅助预测头作为内置草稿模型快速生成候选序列,主模型一次前向传播完成验证,大幅降低生成延迟且额外开销极小。
- NVFP4低精度预训练:全程在Blackwell平台上用NVFP4精度进行预训练,4位浮点格式大幅降低显存需求。在零准确率损失前提下,推理速度比Hopper架构FP8快4倍,证明大规模低精度训练的可行性和高效性。
Nemotron 3 Super的项目地址
- 项目官网:https://blogs.nvidia.com/blog/nemotron-3-super-agentic-ai/
- HuggingFace模型库:https://huggingface.co/collections/nvidia/nvidia-nemotron-v3
- 技术论文:https://research.nvidia.com/labs/nemotron/files/NVIDIA-Nemotron-3-Super-Technical-Report.pdf
Nemotron 3 Super的应用场景
- 智能体平台核心引擎:作为OpenClaw等智能体平台的”最强开源模型”,驱动多智能体协同完成复杂长周期任务,解决上下文爆炸和思考税两大瓶颈。
- 企业级软件开发:赋能CodeRabbit、Factory、Greptile等公司的软件开发智能体,实现代码库级端到端生成、调试与漏洞修复,SWE-Bench测试达60.47%。
- 深度研究分析: 驱动NVIDIA AI-Q研究型智能体,在DeepResearch Bench排行榜夺冠,支持跨海量文档的多步推理与信息整合。
- 网络安全运维:在自主安全编排等高风险环境中,通过高精度工具调用可靠导航庞大函数库,防止关键执行错误。
- 财务金融分析:一次性加载数千页财报进内存,直接进行深度分析,无需反复重新推理,大幅提升投研效率。
📝 站长洞察 (Editor’s Insight)
英伟达开源Nemotron 3 Super,标志着大模型竞争进入“效率革命”新阶段。其Mamba-MoE架构通过线性复杂度建模与高效专家激活,在推理吞吐量上实现跨越式提升,这并非简单的参数竞赛,而是对AI基础设施成本结构的根本性重塑。更值得关注的是,英伟达同步开源了海量训练数据、方法论及强化学习环境,这彰显了其“硬件+软件+生态”三位一体的战略雄心。它意图通过开源生态绑定下游应用,将CUDA的护城河延伸至智能体时代。对于开发者而言,这降低了构建可靠、高性能智能体系统的门槛;对于行业而言,一个以效率为核心的新范式正在形成,未来AI应用的普及将更多取决于单位推理成本的降低,而非单纯模型参数的膨胀。
