上海AI Lab发布InternVL3.5：开源多模态大模型全面升级，推理能力超越GPT-5，支持9种尺寸与高效部署

💡 站外导读：随着多模态AI技术从实验室走向产业落地，行业正面临核心痛点：如何在保证强大推理能力的同时，实现高效部署与低成本应用？传统大模型往往在性能与效率间难以平衡，限制了其在办公、教育、智能家居等场景的规模化应用。上海AI Lab最新开源的InternVL3.5，正是为解决这一难题而生。它通过级联强化学习等创新技术，在推理基准上超越商业模型，同时提供9种尺寸版本，从10亿到2410亿参数全覆盖，显著提升高分辨率处理速度，为开发者与企业提供了兼顾顶尖性能与灵活部署的开源解决方案，标志着开源多模态大模型进入全面实用化新阶段。

InternVL3.5是什么

InternVL3.5（书生·万象3.5）是上海人工智能实验室开源的多模态大模型，模型在通用能力、推理能力和部署效率上全面升级，提供从10亿到2410亿参数的九种尺寸版本，覆盖不同资源需求场景，包含稠密模型和专家混合模型（MoE），是首个支持GPT-OSS语言模型基座的开源多模态大模型。InternVL3.5 采用级联式强化学习（Cascade RL）框架，通过“离线预热-在线精调”两阶段流程，显著提升推理能力。旗舰模型 InternVL3.5-241B-A28B 在多学科推理基准 MMMU 中获得开源模型最高分77.7分，超越 GPT-5。借助动态视觉分辨率路由（ViR）和解耦部署框架（DvD），模型在高分辨率输入下的响应速度大幅提升，38B 模型的吞吐量提升达4.05倍。

阅读目录

InternVL3.5是什么
InternVL3.5的主要功能
InternVL3.5的技术原理
InternVL3.5的项目地址
InternVL3.5的应用场景

📝 站长洞察 (Editor’s Insight)

InternVL3.5

InternVL3.5的主要功能

多模态感知：在图像、视频问答等多模态感知任务中表现出色，241B-A28B 模型以 74.1 的平均得分超越现有开源模型，接近商业模型 GPT-5（74.0）。
多模态推理：在多学科推理基准 MMMU 中获得 77.7 分，较前代提升超 5 个百分点，位列开源榜首。
文本能力：在 AIME、GPQA 及 IFEval 等多个基准中，模型可以取得 85.3 的均分，处于开源领先。
GUI 智能体：强化了 GUI 智能体能力，可实现跨平台自动化操作，例如在 ScreenSpot GUI 定位任务中以 92.9 分超越主流开源模型。
具身空间推理：具备更强的 grounding 能力，可以泛化到全新的复杂具身场景，支持可泛化的长程物体抓取操作。
矢量图形处理：在 SGP-Bench 以 70.7 分刷新开源纪录，能够有效应用于网页图形生成与工程图纸解析等专业场景。

InternVL3.5的技术原理

级联式强化学习（Cascade RL）：通过“离线预热-在线精调”两阶段流程，离线阶段使用混合偏好优化（MPO）算法快速提升基础推理能力，为后续训练提供高质量样本；在线阶段基于 GSPO 算法，以模型自身生成的样本为基础，动态调整输出分布，显著提升训练稳定性和推理性能。
动态视觉分辨率路由（ViR）：为每个图像切片动态选择压缩率，在语义密集区域保留高分辨率，背景区域自适应压缩，减少视觉 tokens，显著提升推理速度，同时几乎不损失性能。
解耦部署框架（DvD）：将视觉编码器与语言模型分置于不同 GPU，结合 BF16 精度特征传输与异步流水线设计，使视觉计算与语言生成并行执行，大幅提升吞吐量，解决传统串行部署的资源阻塞问题。
全量级模型优化：提供从 10 亿到 2410 亿参数的九种尺寸模型，覆盖不同资源需求场景，包含稠密模型和专家混合模型（MoE），首个支持 GPT-OSS 语言模型基座的开源多模态大模型，满足多样化应用需求。
多模态协同推理：通过融合视觉与语言等多维信息，实现多模态任务的高效处理，提升模型在复杂任务中的推理能力，推动多模态技术从“理解”到“行动”的跨越。

InternVL3.5的项目地址

Github仓库：https://github.com/OpenGVLab/InternVL
HuggingFace模型地址：https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
技术报告：https://huggingface.co/papers/2508.18265
在线体验地址：书生大模型

InternVL3.5的应用场景

办公自动化：通过 GUI 智能体功能，实现跨平台的自动化办公操作，如自动处理 Excel 数据录入、PPT 设计排版、邮件发送等任务，提高工作效率。
智能家居控制：利用具身空间推理能力，辅助机器人在家庭环境中完成物品定位、路径规划和物理交互任务，例如智能清洁机器人根据环境布局自主规划清洁路径。
教育辅导：在多模态推理和文本能力的支持下，为学生提供个性化的学习辅导，解答复杂的学科问题，如数学物理题解、逻辑推理训练等，提升学习效果。
内容创作：借助通用多模态感知能力，自动生成图像描述、视频字幕等，帮助创作者快速生成创意内容，提高内容创作的效率和质量。
网页设计与图形生成：利用矢量图形处理能力，根据用户指令生成或编辑 SVG 矢量图形，适用于网页设计、图标制作等，提升设计效率和个性化体验。

📝 站长洞察 (Editor’s Insight)

InternVL3.5的发布，绝不仅仅是参数规模的又一次刷新，而是开源多模态模型在“技术-产品-生态”闭环上的关键一跃。主编认为，其核心亮点有三：首先，级联式强化学习（Cascade RL）框架，通过离线预热与在线精调的结合，巧妙解决了开源模型在复杂推理任务上训练不稳定的行业难题，使MMMU分数首次超越GPT-5，证明了开源路径在顶级能力上完全可期。其次，动态视觉分辨率路由（ViR）与解耦部署框架（DvD）的工程创新，直击多模态大模型落地的两大瓶颈——高分辨率输入的算力消耗与视觉-语言模块的资源阻塞，将38B模型的吞吐量提升4倍，这为边缘设备与实时应用打开了大门。最后，全量级模型矩阵（从1B到241B）与对GPT-OSS基座的支持，体现了上海AI Lab构建开放、可扩展、低成本多模态技术生态的战略雄心。它不再只是一个研究模型，而是为从个人开发者到大型企业的完整产业谱系提供了即插即用的“积木”。在AIGC竞赛进入深水区的今天，InternVL3.5标志着开源力量正从追赶者，转变为技术路线和生态标准的定义者。

上海AI Lab发布InternVL3.5：开源多模态大模型全面升级，推理能力超越GPT-5，支持9种尺寸与高效部署

InternVL3.5是什么

InternVL3.5的主要功能

InternVL3.5的技术原理

InternVL3.5的项目地址

InternVL3.5的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

FeyNoBg – Feyn Labs 开源的自动背景去除模型

Qwen-Audio-3.0-ASR-Flash – 阿里千问推出的语音识别大模型

微软云端隐忧：千亿营收背后的增速换挡与杠杆风险

微信公众号推出 AI”一键排版”：自动分段、生成小标题、匹配配图三步到位

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

InternVL3.5是什么

InternVL3.5的主要功能

InternVL3.5的技术原理

InternVL3.5的项目地址

InternVL3.5的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复