Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Ovis2 – 阿里国际推出的多模态大语言系列模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Ovis2 – 阿里国际推出的多模态大语言系列模型
AIGC 资讯

Ovis2 – 阿里国际推出的多模态大语言系列模型

站外新闻
最近更新: 2026年6月8日 下午6:31
SHARE

Ovis2是什么

Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型,基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构,强化小规模模型的能力密度,基于指令微调和偏好学习显著提升了思维链(CoT)推理能力。Ovis2 引入视频和多图像处理能力,增强多语言支持和复杂场景下的 OCR 能力。Ovis2 系列包含1B、2B、4B、8B、16B 和 34B 六个不同参数规模的模型版本,均在 OpenCompass 多模态评测榜单中展现出卓越性能,在数学推理和视频理解方面表现突出。Ovis2 的开源为多模态大模型的研究和应用提供了新的方向和工具。

阅读目录
  • Ovis2是什么
  • Ovis2的主要功能
  • Ovis2的技术原理
  • Ovis2的项目地址
  • Ovis2的应用场景

Ovis2

Ovis2的主要功能

  • 多模态理解与生成:处理文本、图像、视频等多种输入模态,生成高质量的文本输出,支持复杂场景下的视觉和语言任务。
  • 强化推理能力:基于思维链(CoT)推理能力的提升,解决复杂的逻辑和数学问题,提供逐步推理的解决方案。
  • 视频和多图像处理:引入视频理解能力,支持关键帧选择和多图像输入,处理跨帧的复杂视觉信息。
  • 多语言支持和OCR能力:支持多种语言的文本处理,从复杂视觉元素(如表格、图表)中提取结构化数据。
  • 小模型优化:基于优化训练策略,使小规模模型达到高能力密度,满足不同应用场景的需求。

Ovis2的技术原理

  • 结构化嵌入对齐:基于视觉tokenizer将图像分割成图像块(patch),提取特征后映射到“视觉单词”上,形成概率化的视觉token。视觉token与文本token一起输入到LLM中,实现模态间的结构化对齐。
  • 四阶段训练策略:
    • 第一阶段:冻结LLM,训练视觉模块,学习视觉特征到嵌入的转化。
    • 第二阶段:进一步训练视觉模块,增强高分辨率图像理解和多语言OCR能力。
    • 第三阶段:用对话形式的视觉数据,使视觉嵌入对齐LLM的对话格式。
    • 第四阶段:进行多模态指令训练和偏好学习,提升模型对用户指令的遵循能力和输出质量。
  • 视频理解增强:用MDP3算法(基于帧与文本的相关性、组合多样性和序列性)选择关键帧,提升视频理解能力。
  • 基于Transformer架构:结合强大的视觉编码器(如ViT)和语言模型(如Qwen),实现高效的多模态融合和生成。

Ovis2的项目地址

  • GitHub仓库:https://github.com/AIDC-AI/Ovis
  • HuggingFace模型库:https://huggingface.co/collections/AIDC-AI/ovis2

Ovis2的应用场景

  • 研究人员和开发者:从事人工智能、多模态技术研究的专业人员,及需要开发智能应用的开发者,进行模型优化、算法改进或开发多模态应用。
  • 内容创作者:新闻媒体、广告、营销等行业从业者,快速生成图片或视频的描述、文案、标题等,提升创作效率。
  • 教育工作者和学生:教师生成图片或视频的解释性文字,帮助学生理解复杂内容;学生则通过视觉问答功能解决学习中的问题。
  • 企业用户:金融、法律、医疗等行业从业者处理复杂的文档、图像或视频数据,提取关键信息,辅助决策。
  • 普通用户和技术爱好者:对人工智能感兴趣的人群,进行简单的多模态任务,例如生成图片描述或进行视觉问答,探索技术在日常生活中的应用。
ElevenLabs Music v2重磅更新:实现‘一曲多变’与商业版权无忧,AI音乐进入生产力时代
Higgs Avatar v1重磅发布!一张照片16ms生成实时AI数字人,单卡H100并发8路对话
支付宝AI支付破3亿笔:全球首个AI原生支付基建落地,Token Pay与AI钱包重塑智能体交易
FantasyTalking – 阿里联合北邮推出静态肖像生成可控数字人的框架
ClawLess:南方科技大学 & 港科大AI Agent安全框架,形式化验证+系统调用拦截,构筑数学级安全壁垒
分享
Email 复制链接 打印
Share
上一篇 全息流体渐变通用占位特色图 AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

全息流体渐变通用占位特色图
AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%
AIGC 资讯
Gemini Embedding – 谷歌推出的文本嵌入模型
AIGC 资讯
InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型
AIGC 资讯
ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
AIGC 资讯

相关推荐

AIGC 资讯

仿生手再升级!小米人形机器人亮相发布会,自主抓握手机拍照

站外新闻
AIGC 资讯

C盘空间瞬间释放4GB!谷歌浏览器终于服软,新版 Chrome 允许彻底禁用并删除本地 AI 大模型

站外新闻
AIGC 资讯

不让NVIDIA吃独食!AMD下一代Zen5 AI加速器在路上

OZ
AIGC AMD MI300 NVIDIA Zen5
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

谷歌Coral Board开发板发布:本地运行Gemma3,RISC-V架构赋能边缘AI革命

站外新闻
Coral Board Gemma3 RISC-V 端侧计算 边缘AI
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.