Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 上海AI Lab发布InternVL3.5:开源多模态大模型全面升级,推理能力超越GPT-5,支持9种尺寸与高效部署
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 上海AI Lab发布InternVL3.5:开源多模态大模型全面升级,推理能力超越GPT-5,支持9种尺寸与高效部署
AI 工具AIGC 资讯

上海AI Lab发布InternVL3.5:开源多模态大模型全面升级,推理能力超越GPT-5,支持9种尺寸与高效部署

站外新闻
最近更新: 2026年6月7日 下午8:19
GPT-OSS InternVL3.5 上海人工智能实验室 多模态大模型 开源AI模型
SHARE

💡 站外导读:随着多模态AI技术从实验室走向产业落地,行业正面临核心痛点:如何在保证强大推理能力的同时,实现高效部署与低成本应用?传统大模型往往在性能与效率间难以平衡,限制了其在办公、教育、智能家居等场景的规模化应用。上海AI Lab最新开源的InternVL3.5,正是为解决这一难题而生。它通过级联强化学习等创新技术,在推理基准上超越商业模型,同时提供9种尺寸版本,从10亿到2410亿参数全覆盖,显著提升高分辨率处理速度,为开发者与企业提供了兼顾顶尖性能与灵活部署的开源解决方案,标志着开源多模态大模型进入全面实用化新阶段。

InternVL3.5是什么

InternVL3.5(书生·万象3.5)是上海人工智能实验室开源的多模态大模型,模型在通用能力、推理能力和部署效率上全面升级,提供从10亿到2410亿参数的九种尺寸版本,覆盖不同资源需求场景,包含稠密模型和专家混合模型(MoE),是首个支持GPT-OSS语言模型基座的开源多模态大模型。InternVL3.5 采用级联式强化学习(Cascade RL)框架,通过“离线预热-在线精调”两阶段流程,显著提升推理能力。旗舰模型 InternVL3.5-241B-A28B 在多学科推理基准 MMMU 中获得开源模型最高分77.7分,超越 GPT-5。借助动态视觉分辨率路由(ViR)和解耦部署框架(DvD),模型在高分辨率输入下的响应速度大幅提升,38B 模型的吞吐量提升达4.05倍。

阅读目录
  • InternVL3.5是什么
  • InternVL3.5的主要功能
  • InternVL3.5的技术原理
  • InternVL3.5的项目地址
  • InternVL3.5的应用场景
      • 📝 站长洞察 (Editor’s Insight)

InternVL3.5

InternVL3.5的主要功能

  • 多模态感知:在图像、视频问答等多模态感知任务中表现出色,241B-A28B 模型以 74.1 的平均得分超越现有开源模型,接近商业模型 GPT-5(74.0)。
  • 多模态推理:在多学科推理基准 MMMU 中获得 77.7 分,较前代提升超 5 个百分点,位列开源榜首。
  • 文本能力:在 AIME、GPQA 及 IFEval 等多个基准中,模型可以取得 85.3 的均分,处于开源领先。
  • GUI 智能体:强化了 GUI 智能体能力,可实现跨平台自动化操作,例如在 ScreenSpot GUI 定位任务中以 92.9 分超越主流开源模型。
  • 具身空间推理:具备更强的 grounding 能力,可以泛化到全新的复杂具身场景,支持可泛化的长程物体抓取操作。
  • 矢量图形处理:在 SGP-Bench 以 70.7 分刷新开源纪录,能够有效应用于网页图形生成与工程图纸解析等专业场景。

InternVL3.5的技术原理

  • 级联式强化学习(Cascade RL):通过“离线预热-在线精调”两阶段流程,离线阶段使用混合偏好优化(MPO)算法快速提升基础推理能力,为后续训练提供高质量样本;在线阶段基于 GSPO 算法,以模型自身生成的样本为基础,动态调整输出分布,显著提升训练稳定性和推理性能。
  • 动态视觉分辨率路由(ViR):为每个图像切片动态选择压缩率,在语义密集区域保留高分辨率,背景区域自适应压缩,减少视觉 tokens,显著提升推理速度,同时几乎不损失性能。
  • 解耦部署框架(DvD):将视觉编码器与语言模型分置于不同 GPU,结合 BF16 精度特征传输与异步流水线设计,使视觉计算与语言生成并行执行,大幅提升吞吐量,解决传统串行部署的资源阻塞问题。
  • 全量级模型优化:提供从 10 亿到 2410 亿参数的九种尺寸模型,覆盖不同资源需求场景,包含稠密模型和专家混合模型(MoE),首个支持 GPT-OSS 语言模型基座的开源多模态大模型,满足多样化应用需求。
  • 多模态协同推理:通过融合视觉与语言等多维信息,实现多模态任务的高效处理,提升模型在复杂任务中的推理能力,推动多模态技术从“理解”到“行动”的跨越。

InternVL3.5的项目地址

  • Github仓库:https://github.com/OpenGVLab/InternVL
  • HuggingFace模型地址:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
  • 技术报告:https://huggingface.co/papers/2508.18265
  • 在线体验地址:书生大模型

InternVL3.5的应用场景

  • 办公自动化:通过 GUI 智能体功能,实现跨平台的自动化办公操作,如自动处理 Excel 数据录入、PPT 设计排版、邮件发送等任务,提高工作效率。
  • 智能家居控制:利用具身空间推理能力,辅助机器人在家庭环境中完成物品定位、路径规划和物理交互任务,例如智能清洁机器人根据环境布局自主规划清洁路径。
  • 教育辅导:在多模态推理和文本能力的支持下,为学生提供个性化的学习辅导,解答复杂的学科问题,如数学物理题解、逻辑推理训练等,提升学习效果。
  • 内容创作:借助通用多模态感知能力,自动生成图像描述、视频字幕等,帮助创作者快速生成创意内容,提高内容创作的效率和质量。
  • 网页设计与图形生成:利用矢量图形处理能力,根据用户指令生成或编辑 SVG 矢量图形,适用于网页设计、图标制作等,提升设计效率和个性化体验。

📝 站长洞察 (Editor’s Insight)

InternVL3.5的发布,绝不仅仅是参数规模的又一次刷新,而是开源多模态模型在“技术-产品-生态”闭环上的关键一跃。主编认为,其核心亮点有三:首先,级联式强化学习(Cascade RL)框架,通过离线预热与在线精调的结合,巧妙解决了开源模型在复杂推理任务上训练不稳定的行业难题,使MMMU分数首次超越GPT-5,证明了开源路径在顶级能力上完全可期。其次,动态视觉分辨率路由(ViR)与解耦部署框架(DvD)的工程创新,直击多模态大模型落地的两大瓶颈——高分辨率输入的算力消耗与视觉-语言模块的资源阻塞,将38B模型的吞吐量提升4倍,这为边缘设备与实时应用打开了大门。最后,全量级模型矩阵(从1B到241B)与对GPT-OSS基座的支持,体现了上海AI Lab构建开放、可扩展、低成本多模态技术生态的战略雄心。它不再只是一个研究模型,而是为从个人开发者到大型企业的完整产业谱系提供了即插即用的“积木”。在AIGC竞赛进入深水区的今天,InternVL3.5标志着开源力量正从追赶者,转变为技术路线和生态标准的定义者。

Almowafir Gift Hunter
Luma AI发布Uni-1:首个边思考边创作的统一图像生成模型,推理能力碾压GPT Image
GPT-4.1 – OpenAI 推出新一代语言模型,支持百万 token 上下文
FoloUp – 开源AI语音面试平台,自动生成定制化面试问题
BEN2 – 自动从图像和视频中移除背景深度学习模型
TAGGED:GPT-OSSInternVL3.5上海人工智能实验室多模态大模型开源AI模型
分享
Email 复制链接 打印
Share
上一篇 微软发布万亿参数大模型MAI-1-preview:1.5万H100集群训练,性能直逼GPT-4
下一篇 Async:开源AI编程利器,自动化GitHub工作流与代码审查,开发者效率倍增
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

xAI推出Grok Code Fast 1:每秒92 Token、256K上下文的免费AI编程助手
AI 工具 AIGC 资讯
腾讯混元HunyuanVideo-Foley开源:AI视频音效生成模型,多模态扩散变换器驱动沉浸式创作
AI 工具 AIGC 资讯
OpenAI发布gpt-realtime:革命性语音模型,实时处理音频、图像,功能调用准确率飙升
AI 工具 AIGC 资讯
字节OmniHuman-1.5重磅发布:单图+语音生成电影级数字人动画,AI视频创作迎来质变
AI 工具 AIGC 资讯

相关推荐

AI 工具

Banana Slides: 开源AI PPT生成神器,自然语言一键编辑,彻底解放你的演示制作!

站外新闻
AI工具 PPT生成 开源项目 效率工具 自然语言处理
AIGC 资讯

Ovis2 – 阿里国际推出的多模态大语言系列模型

站外新闻
AI 工具AIGC 资讯

阿里通义百聆重磅发布:企业级语音基座大模型,融合识别与合成,大幅降低幻觉率,赋能多行业应用

站外新闻
Fun-ASR Fun-CosyVoice 企业级AI 语音大模型 通义百聆
AI 工具AIGC 资讯

联想天禧AI Claw:开箱即用的7×24小时AI智能体助理,多端协同引爆效率革命

站外新闻
AI智能体 OpenClaw 多Agent协作 端云混合 联想
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai prompt RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 智谱AI 月之暗面 混合专家模型 清华大学 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 边缘计算 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.