Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 商汤SenseNova-MARS开源:首个多模态自主推理模型,性能超越GPT-5.2与Gemini-3-Pro
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 商汤SenseNova-MARS开源:首个多模态自主推理模型,性能超越GPT-5.2与Gemini-3-Pro
AI 工具AIGC 资讯

商汤SenseNova-MARS开源:首个多模态自主推理模型,性能超越GPT-5.2与Gemini-3-Pro

站外新闻
最近更新: 2026年6月7日 下午8:06
Agentic VLM 商汤科技 多模态模型 大模型开源 自主推理
SHARE

💡 站外导读:在AI技术竞赛白热化的今天,多模态模型已从简单的图文理解进化到需要复杂推理与执行的“智能体”阶段。然而,现有模型在面对需要多步骤、多工具协作的真实任务时,往往缺乏自主规划和动态调用能力,成为制约AI从“实验室Demo”走向“生产力工具”的关键瓶颈。商汤科技开源的SenseNova-MARS,正是为解决这一痛点而生,它首次将自主Agent能力与多模态深度推理相结合,标志着多模态AI进入“执行智能”新纪元。

SenseNova-MARS是什么

SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型能像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预可完成复杂的多跳推理。模型在MMSearch、HR-MMSearch、FVQA等七大基准测试中,SenseNova-MARS-32B以69.74分的平均成绩超越Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),在开源模型中达到SOTA水平,标志着AI从”能回答”向”能执行”的重要跨越。

阅读目录
  • SenseNova-MARS是什么
  • SenseNova-MARS的主要功能
  • SenseNova-MARS的技术原理
  • SenseNova-MARS的项目地址
  • SenseNova-MARS的应用场景
      • 📝 站长洞察 (Editor’s Insight)

SenseNova-MARS

SenseNova-MARS的主要功能

  • 多模态搜索推理:模型融合图像与文本进行跨模态信息检索,支持动态调用工具完成复杂知识推理。
  • 细粒度视觉分析:支持处理4K/8K超高清图像,能精准裁剪、识别占比不足5%的微小视觉细节。
  • 自主Agent执行:模型能自主规划任务步骤,无缝协作多工具形成闭环,无需人工干预解决复杂问题。

SenseNova-MARS的技术原理

  • 双阶段训练架构:第一阶段通过约3,000个高质量多轮交互轨迹进行冷启动监督微调,使模型掌握基础工具使用模式;第二阶段用BN-GSPO强化学习算法,通过组内与批次双重归一化稳定训练过程,优化多工具协同调用与推理决策能力。
  • BN-GSPO强化学习算法:针对多工具场景中轨迹长度与奖励尺度差异导致的训练不稳定问题,算法先对同组样本进行组归一化消除内部偏差,再对整个批次进行归一化平衡不同任务的学习信号,实现稳定高效的多工具策略优化。
  • 动作空间与工具设计:模型每轮可在文本搜索、图像搜索、图像裁剪及终止回答四个动作中选择,图像裁剪通过归一化边界框坐标实现精准局部放大,所有工具调用均遵循严格的JSON格式规范确保交互一致性。
  • 奖励模型机制:模型采用GPT-4o作为评判器,从答案准确性与格式合规性两个维度提供稀疏奖励,准确性奖励衡量最终答案与 ground truth 的语义匹配度,格式奖励能确保每轮输出包含合规的思考过程与工具调用结构。
  • 自动化数据合成:基于多模智能体构建数据引擎,通过细粒度视觉锚点定位、多跳深度关联检索及闭环自洽性校验三个环节,自动挖掘跨网页实体逻辑并构建高复杂度推理链路,同时过滤幻觉数据保证训练数据质量。

SenseNova-MARS的项目地址

  • GitHub仓库:https://github.com/OpenSenseNova/SenseNova-MARS
  • HuggingFace模型库:
    • https://huggingface.co/sensenova/SenseNova-MARS-32B
    • https://huggingface.co/sensenova/SenseNova-MARS-8B
  • arXiv技术论文:https://arxiv.org/pdf/2512.24330

SenseNova-MARS的应用场景

  • 体育竞技分析:模型能识别赛车服微小logo并查询相关企业及车手背景信息,自动计算时间差值辅助赛事数据核实。
  • 商业情报挖掘:从峰会照片中识别企业标志,快速搜集产品参数与融资信息,辅助分析行业竞争格局。
  • 新闻事实核查:针对高分辨率新闻图片追溯事件背景与人物身份,验证社交媒体流传信息的真实性。
  • 学术研究与教育:自动分析论文图表数据并检索相关研究背景,加速文献综述与知识整合过程。
  • 地理旅行探索:识别地标路牌等细节并实时检索历史文化信息,提供沉浸式智能导览体验。

📝 站长洞察 (Editor’s Insight)

SenseNova-MARS的发布,不仅是一次技术基准的刷新,更揭示了多模态大模型发展的关键范式转移:从“被动应答”到“主动执行”。它通过创新的BN-GSPO强化学习算法与双阶段训练架构,解决了多工具场景下训练不稳定的核心难题,让模型像人类专家一样规划、搜索、裁剪、推理,形成闭环。这背后是商汤对“Agentic VLM”路径的深刻押注——未来的AI竞争,将不再是单一模型参数的比拼,而是谁能构建更稳定、更高效的“自主推理引擎”。结合其完整的开源生态(模型、代码、论文),SenseNova-MARS正以“基础设施”姿态,为开发者提供了一把解锁复杂场景应用的钥匙,其影响将远超学术榜单,直接催化商业情报、科研自动化等领域的生产力革命。

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
Pika!一个免费使用的 AI 短视频生成神器
育碧《孤岛惊魂7》秘密测试生成式AI遭曝光!曝料人称效果“烂透了”,押注NPC智能交互能否翻盘?
GPT‑5.3‑Codex‑Spark – OpenAI推出的轻量级编程模型
Cosmos-Reason1 – NVIDIA推出的系列多模态大语言模型
TAGGED:Agentic VLM商汤科技多模态模型大模型开源自主推理
分享
Email 复制链接 打印
Share
上一篇 MOVA:中国首个端到端开源音视频生成大模型,320亿参数实现电影级口型同步
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

MOVA:中国首个端到端开源音视频生成大模型,320亿参数实现电影级口型同步
AI 工具 AIGC 资讯
斯坦福&英伟达发布TTT-Discover:测试时强化学习实现低成本AI科学发现
AIGC 资讯
Project Genie:谷歌DeepMind AI世界模型来袭,文字秒生可交互虚拟宇宙
AI 工具 AIGC 资讯
宇树科技重磅开源UnifoLM-VLA-0:基于Qwen2.5-VL-7B,单一模型实现12类机器人操作,准确率98.7%
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯最新趋势

MiniMax M3大模型前瞻:稀疏注意力架构破局,百万Token上下文处理效率飙升10倍+,引领长文本AI新范式

站外新闻
AI效率 MiniMax 稀疏注意力 长上下文
AIGC 资讯

Context7 – 为大模型和AI编辑器提供最新文档和代码示例的平台

站外新闻
AIGC 资讯

MoMask – 文本驱动生成高质量3D人体动作的模型

站外新闻
AIGC 资讯

混元图像2.0 – 腾讯推出的实时AI图片生成大模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 阿里通义千问 面壁智能 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.