Ovis2 – 阿里国际推出的多模态大语言系列模型

最近更新: 2026年6月8日下午6:31

Ovis2是什么

Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型，基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构，强化小规模模型的能力密度，基于指令微调和偏好学习显著提升了思维链（CoT）推理能力。Ovis2 引入视频和多图像处理能力，增强多语言支持和复杂场景下的 OCR 能力。Ovis2 系列包含1B、2B、4B、8B、16B 和 34B 六个不同参数规模的模型版本，均在 OpenCompass 多模态评测榜单中展现出卓越性能，在数学推理和视频理解方面表现突出。Ovis2 的开源为多模态大模型的研究和应用提供了新的方向和工具。

阅读目录

Ovis2是什么
Ovis2的主要功能
Ovis2的技术原理
Ovis2的项目地址
Ovis2的应用场景

Ovis2

Ovis2的主要功能

多模态理解与生成：处理文本、图像、视频等多种输入模态，生成高质量的文本输出，支持复杂场景下的视觉和语言任务。
强化推理能力：基于思维链（CoT）推理能力的提升，解决复杂的逻辑和数学问题，提供逐步推理的解决方案。
视频和多图像处理：引入视频理解能力，支持关键帧选择和多图像输入，处理跨帧的复杂视觉信息。
多语言支持和OCR能力：支持多种语言的文本处理，从复杂视觉元素（如表格、图表）中提取结构化数据。
小模型优化：基于优化训练策略，使小规模模型达到高能力密度，满足不同应用场景的需求。

Ovis2的技术原理

结构化嵌入对齐：基于视觉tokenizer将图像分割成图像块（patch），提取特征后映射到“视觉单词”上，形成概率化的视觉token。视觉token与文本token一起输入到LLM中，实现模态间的结构化对齐。
四阶段训练策略：
- 第一阶段：冻结LLM，训练视觉模块，学习视觉特征到嵌入的转化。
- 第二阶段：进一步训练视觉模块，增强高分辨率图像理解和多语言OCR能力。
- 第三阶段：用对话形式的视觉数据，使视觉嵌入对齐LLM的对话格式。
- 第四阶段：进行多模态指令训练和偏好学习，提升模型对用户指令的遵循能力和输出质量。
视频理解增强：用MDP3算法（基于帧与文本的相关性、组合多样性和序列性）选择关键帧，提升视频理解能力。
基于Transformer架构：结合强大的视觉编码器（如ViT）和语言模型（如Qwen），实现高效的多模态融合和生成。

Ovis2的项目地址

GitHub仓库：https://github.com/AIDC-AI/Ovis
HuggingFace模型库：https://huggingface.co/collections/AIDC-AI/ovis2

Ovis2的应用场景

研究人员和开发者：从事人工智能、多模态技术研究的专业人员，及需要开发智能应用的开发者，进行模型优化、算法改进或开发多模态应用。
内容创作者：新闻媒体、广告、营销等行业从业者，快速生成图片或视频的描述、文案、标题等，提升创作效率。
教育工作者和学生：教师生成图片或视频的解释性文字，帮助学生理解复杂内容；学生则通过视觉问答功能解决学习中的问题。
企业用户：金融、法律、医疗等行业从业者处理复杂的文档、图像或视频数据，提取关键信息，辅助决策。
普通用户和技术爱好者：对人工智能感兴趣的人群，进行简单的多模态任务，例如生成图片描述或进行视觉问答，探索技术在日常生活中的应用。

AI 音频编辑迈入新纪元：腾讯混元联合多家顶尖机构发布 MMAE 基准，当前模型精准编辑能力不足 5%

BlenderMCP – 基于 MCP 集成的 3D 建模工具

发表评价

Ovis2 – 阿里国际推出的多模态大语言系列模型

Ovis2是什么

Ovis2的主要功能

Ovis2的技术原理

Ovis2的项目地址

Ovis2的应用场景

发表评价取消回复

最近更新

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型

首包延迟300ms、支持20种方言:通义千问Qwen-Audio-3.0-TTS正式开放

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Ovis2是什么

Ovis2的主要功能

Ovis2的技术原理

Ovis2的项目地址

Ovis2的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复