商汤SenseNova-MARS开源：首个多模态自主推理模型，性能超越GPT-5.2与Gemini-3-Pro

💡 站外导读：在AI技术竞赛白热化的今天，多模态模型已从简单的图文理解进化到需要复杂推理与执行的“智能体”阶段。然而，现有模型在面对需要多步骤、多工具协作的真实任务时，往往缺乏自主规划和动态调用能力，成为制约AI从“实验室Demo”走向“生产力工具”的关键瓶颈。商汤科技开源的SenseNova-MARS，正是为解决这一痛点而生，它首次将自主Agent能力与多模态深度推理相结合，标志着多模态AI进入“执行智能”新纪元。

SenseNova-MARS是什么

SenseNova-MARS是商汤科技开源的多模态自主推理模型，提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM，模型能像智能体一样自主规划任务步骤，灵活调用图像裁剪、文本搜索、图像搜索三大工具，无需人工干预可完成复杂的多跳推理。模型在MMSearch、HR-MMSearch、FVQA等七大基准测试中，SenseNova-MARS-32B以69.74分的平均成绩超越Gemini-3-Pro（69.06分）和GPT-5.2（67.64分），在开源模型中达到SOTA水平，标志着AI从”能回答”向”能执行”的重要跨越。

阅读目录

SenseNova-MARS是什么
SenseNova-MARS的主要功能
SenseNova-MARS的技术原理
SenseNova-MARS的项目地址
SenseNova-MARS的应用场景

📝 站长洞察 (Editor’s Insight)

SenseNova-MARS

SenseNova-MARS的主要功能

多模态搜索推理：模型融合图像与文本进行跨模态信息检索，支持动态调用工具完成复杂知识推理。
细粒度视觉分析：支持处理4K/8K超高清图像，能精准裁剪、识别占比不足5%的微小视觉细节。
自主Agent执行：模型能自主规划任务步骤，无缝协作多工具形成闭环，无需人工干预解决复杂问题。

SenseNova-MARS的技术原理

双阶段训练架构：第一阶段通过约3,000个高质量多轮交互轨迹进行冷启动监督微调，使模型掌握基础工具使用模式；第二阶段用BN-GSPO强化学习算法，通过组内与批次双重归一化稳定训练过程，优化多工具协同调用与推理决策能力。
BN-GSPO强化学习算法：针对多工具场景中轨迹长度与奖励尺度差异导致的训练不稳定问题，算法先对同组样本进行组归一化消除内部偏差，再对整个批次进行归一化平衡不同任务的学习信号，实现稳定高效的多工具策略优化。
动作空间与工具设计：模型每轮可在文本搜索、图像搜索、图像裁剪及终止回答四个动作中选择，图像裁剪通过归一化边界框坐标实现精准局部放大，所有工具调用均遵循严格的JSON格式规范确保交互一致性。
奖励模型机制：模型采用GPT-4o作为评判器，从答案准确性与格式合规性两个维度提供稀疏奖励，准确性奖励衡量最终答案与 ground truth 的语义匹配度，格式奖励能确保每轮输出包含合规的思考过程与工具调用结构。
自动化数据合成：基于多模智能体构建数据引擎，通过细粒度视觉锚点定位、多跳深度关联检索及闭环自洽性校验三个环节，自动挖掘跨网页实体逻辑并构建高复杂度推理链路，同时过滤幻觉数据保证训练数据质量。

SenseNova-MARS的项目地址

GitHub仓库：https://github.com/OpenSenseNova/SenseNova-MARS
HuggingFace模型库：
- https://huggingface.co/sensenova/SenseNova-MARS-32B
- https://huggingface.co/sensenova/SenseNova-MARS-8B
arXiv技术论文：https://arxiv.org/pdf/2512.24330

SenseNova-MARS的应用场景

体育竞技分析：模型能识别赛车服微小logo并查询相关企业及车手背景信息，自动计算时间差值辅助赛事数据核实。
商业情报挖掘：从峰会照片中识别企业标志，快速搜集产品参数与融资信息，辅助分析行业竞争格局。
新闻事实核查：针对高分辨率新闻图片追溯事件背景与人物身份，验证社交媒体流传信息的真实性。
学术研究与教育：自动分析论文图表数据并检索相关研究背景，加速文献综述与知识整合过程。
地理旅行探索：识别地标路牌等细节并实时检索历史文化信息，提供沉浸式智能导览体验。

📝 站长洞察 (Editor’s Insight)

SenseNova-MARS的发布，不仅是一次技术基准的刷新，更揭示了多模态大模型发展的关键范式转移：从“被动应答”到“主动执行”。它通过创新的BN-GSPO强化学习算法与双阶段训练架构，解决了多工具场景下训练不稳定的核心难题，让模型像人类专家一样规划、搜索、裁剪、推理，形成闭环。这背后是商汤对“Agentic VLM”路径的深刻押注——未来的AI竞争，将不再是单一模型参数的比拼，而是谁能构建更稳定、更高效的“自主推理引擎”。结合其完整的开源生态（模型、代码、论文），SenseNova-MARS正以“基础设施”姿态，为开发者提供了一把解锁复杂场景应用的钥匙，其影响将远超学术榜单，直接催化商业情报、科研自动化等领域的生产力革命。

商汤SenseNova-MARS开源：首个多模态自主推理模型，性能超越GPT-5.2与Gemini-3-Pro

SenseNova-MARS是什么

SenseNova-MARS的主要功能

SenseNova-MARS的技术原理

SenseNova-MARS的项目地址

SenseNova-MARS的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

OpenAI扩大ChatGPT家长通知，青少年暴力违规将触发提醒

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

YouTube 收紧政策，严打低质 AI 内容

小鹏甩出TuringViT视觉编码器：只用十分之一数据，却把SOTA基线甩在身后

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

SenseNova-MARS是什么

SenseNova-MARS的主要功能

SenseNova-MARS的技术原理

SenseNova-MARS的项目地址

SenseNova-MARS的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复