Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 商汤SenseNova-MARS开源:首个多模态自主推理模型,性能超越GPT-5.2与Gemini-3-Pro
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 商汤SenseNova-MARS开源:首个多模态自主推理模型,性能超越GPT-5.2与Gemini-3-Pro
AI 工具AIGC 资讯

商汤SenseNova-MARS开源:首个多模态自主推理模型,性能超越GPT-5.2与Gemini-3-Pro

站外新闻
最近更新: 2026年6月7日 下午8:06
Agentic VLM 商汤科技 多模态模型 大模型开源 自主推理
SHARE

💡 站外导读:在AI技术竞赛白热化的今天,多模态模型已从简单的图文理解进化到需要复杂推理与执行的“智能体”阶段。然而,现有模型在面对需要多步骤、多工具协作的真实任务时,往往缺乏自主规划和动态调用能力,成为制约AI从“实验室Demo”走向“生产力工具”的关键瓶颈。商汤科技开源的SenseNova-MARS,正是为解决这一痛点而生,它首次将自主Agent能力与多模态深度推理相结合,标志着多模态AI进入“执行智能”新纪元。

SenseNova-MARS是什么

SenseNova-MARS是商汤科技开源的多模态自主推理模型,提供8B和32B两种参数规模。作为首个支持动态视觉推理与图文搜索深度融合的Agentic VLM,模型能像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具,无需人工干预可完成复杂的多跳推理。模型在MMSearch、HR-MMSearch、FVQA等七大基准测试中,SenseNova-MARS-32B以69.74分的平均成绩超越Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),在开源模型中达到SOTA水平,标志着AI从”能回答”向”能执行”的重要跨越。

阅读目录
  • SenseNova-MARS是什么
  • SenseNova-MARS的主要功能
  • SenseNova-MARS的技术原理
  • SenseNova-MARS的项目地址
  • SenseNova-MARS的应用场景
      • 📝 站长洞察 (Editor’s Insight)

SenseNova-MARS

SenseNova-MARS的主要功能

  • 多模态搜索推理:模型融合图像与文本进行跨模态信息检索,支持动态调用工具完成复杂知识推理。
  • 细粒度视觉分析:支持处理4K/8K超高清图像,能精准裁剪、识别占比不足5%的微小视觉细节。
  • 自主Agent执行:模型能自主规划任务步骤,无缝协作多工具形成闭环,无需人工干预解决复杂问题。

SenseNova-MARS的技术原理

  • 双阶段训练架构:第一阶段通过约3,000个高质量多轮交互轨迹进行冷启动监督微调,使模型掌握基础工具使用模式;第二阶段用BN-GSPO强化学习算法,通过组内与批次双重归一化稳定训练过程,优化多工具协同调用与推理决策能力。
  • BN-GSPO强化学习算法:针对多工具场景中轨迹长度与奖励尺度差异导致的训练不稳定问题,算法先对同组样本进行组归一化消除内部偏差,再对整个批次进行归一化平衡不同任务的学习信号,实现稳定高效的多工具策略优化。
  • 动作空间与工具设计:模型每轮可在文本搜索、图像搜索、图像裁剪及终止回答四个动作中选择,图像裁剪通过归一化边界框坐标实现精准局部放大,所有工具调用均遵循严格的JSON格式规范确保交互一致性。
  • 奖励模型机制:模型采用GPT-4o作为评判器,从答案准确性与格式合规性两个维度提供稀疏奖励,准确性奖励衡量最终答案与 ground truth 的语义匹配度,格式奖励能确保每轮输出包含合规的思考过程与工具调用结构。
  • 自动化数据合成:基于多模智能体构建数据引擎,通过细粒度视觉锚点定位、多跳深度关联检索及闭环自洽性校验三个环节,自动挖掘跨网页实体逻辑并构建高复杂度推理链路,同时过滤幻觉数据保证训练数据质量。

SenseNova-MARS的项目地址

  • GitHub仓库:https://github.com/OpenSenseNova/SenseNova-MARS
  • HuggingFace模型库:
    • https://huggingface.co/sensenova/SenseNova-MARS-32B
    • https://huggingface.co/sensenova/SenseNova-MARS-8B
  • arXiv技术论文:https://arxiv.org/pdf/2512.24330

SenseNova-MARS的应用场景

  • 体育竞技分析:模型能识别赛车服微小logo并查询相关企业及车手背景信息,自动计算时间差值辅助赛事数据核实。
  • 商业情报挖掘:从峰会照片中识别企业标志,快速搜集产品参数与融资信息,辅助分析行业竞争格局。
  • 新闻事实核查:针对高分辨率新闻图片追溯事件背景与人物身份,验证社交媒体流传信息的真实性。
  • 学术研究与教育:自动分析论文图表数据并检索相关研究背景,加速文献综述与知识整合过程。
  • 地理旅行探索:识别地标路牌等细节并实时检索历史文化信息,提供沉浸式智能导览体验。

📝 站长洞察 (Editor’s Insight)

SenseNova-MARS的发布,不仅是一次技术基准的刷新,更揭示了多模态大模型发展的关键范式转移:从“被动应答”到“主动执行”。它通过创新的BN-GSPO强化学习算法与双阶段训练架构,解决了多工具场景下训练不稳定的核心难题,让模型像人类专家一样规划、搜索、裁剪、推理,形成闭环。这背后是商汤对“Agentic VLM”路径的深刻押注——未来的AI竞争,将不再是单一模型参数的比拼,而是谁能构建更稳定、更高效的“自主推理引擎”。结合其完整的开源生态(模型、代码、论文),SenseNova-MARS正以“基础设施”姿态,为开发者提供了一把解锁复杂场景应用的钥匙,其影响将远超学术榜单,直接催化商业情报、科研自动化等领域的生产力革命。

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
文心一格
GPT-4.1 – OpenAI 推出新一代语言模型,支持百万 token 上下文
Rodin Gen-2.5 – 影眸科技推出的千万级多边形 AI 3D 模型
Asana 7500万美元收购无代码AI智能体公司StackAI:重塑「人机团队操作系统」
TAGGED:Agentic VLM商汤科技多模态模型大模型开源自主推理
分享
Email 复制链接 打印
Share
上一篇 MOVA:中国首个端到端开源音视频生成大模型,320亿参数实现电影级口型同步
下一篇 阿里通义开源 Qwen3-ASR 语音识别模型:支持52语种方言,1.7B版达SOTA,0.6B版吞吐提升2000倍
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

AIMangaStudio:开源AI漫画生成工具全解析,从脚本到分镜的一站式创作指南

站外新闻
AIGC AI漫画生成 分镜设计 开源工具 角色一致性
量子芯片科技感占位特色图
AI 工具AIGC 资讯

谷歌AI搜索强推遭反噬?用户涌向DuckDuckGo,隐私搜索迎来爆发增长

站外新闻
AI搜索 AI疲劳 DuckDuckGo 用户隐私 谷歌
AI 工具AIGC 资讯

复旦重磅发布LifeSim:全球首个长程用户生活模拟框架,革新AI助手评测与训练

站外新闻
AI助手评测 BDI认知模型 LifeSim 个性化AI 长程模拟
AIGC 资讯

Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.