Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Ovis2 – 阿里国际推出的多模态大语言系列模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Ovis2 – 阿里国际推出的多模态大语言系列模型
AIGC 资讯

Ovis2 – 阿里国际推出的多模态大语言系列模型

站外新闻
最近更新: 2026年6月8日 下午6:31
SHARE

Ovis2是什么

Ovis2 是阿里巴巴国际团队推出的新型多模态大语言模型,基于结构化嵌入对齐解决视觉与文本模态间的差异。Ovis2继承、优化了 Ovis 系列架构,强化小规模模型的能力密度,基于指令微调和偏好学习显著提升了思维链(CoT)推理能力。Ovis2 引入视频和多图像处理能力,增强多语言支持和复杂场景下的 OCR 能力。Ovis2 系列包含1B、2B、4B、8B、16B 和 34B 六个不同参数规模的模型版本,均在 OpenCompass 多模态评测榜单中展现出卓越性能,在数学推理和视频理解方面表现突出。Ovis2 的开源为多模态大模型的研究和应用提供了新的方向和工具。

阅读目录
  • Ovis2是什么
  • Ovis2的主要功能
  • Ovis2的技术原理
  • Ovis2的项目地址
  • Ovis2的应用场景

Ovis2

Ovis2的主要功能

  • 多模态理解与生成:处理文本、图像、视频等多种输入模态,生成高质量的文本输出,支持复杂场景下的视觉和语言任务。
  • 强化推理能力:基于思维链(CoT)推理能力的提升,解决复杂的逻辑和数学问题,提供逐步推理的解决方案。
  • 视频和多图像处理:引入视频理解能力,支持关键帧选择和多图像输入,处理跨帧的复杂视觉信息。
  • 多语言支持和OCR能力:支持多种语言的文本处理,从复杂视觉元素(如表格、图表)中提取结构化数据。
  • 小模型优化:基于优化训练策略,使小规模模型达到高能力密度,满足不同应用场景的需求。

Ovis2的技术原理

  • 结构化嵌入对齐:基于视觉tokenizer将图像分割成图像块(patch),提取特征后映射到“视觉单词”上,形成概率化的视觉token。视觉token与文本token一起输入到LLM中,实现模态间的结构化对齐。
  • 四阶段训练策略:
    • 第一阶段:冻结LLM,训练视觉模块,学习视觉特征到嵌入的转化。
    • 第二阶段:进一步训练视觉模块,增强高分辨率图像理解和多语言OCR能力。
    • 第三阶段:用对话形式的视觉数据,使视觉嵌入对齐LLM的对话格式。
    • 第四阶段:进行多模态指令训练和偏好学习,提升模型对用户指令的遵循能力和输出质量。
  • 视频理解增强:用MDP3算法(基于帧与文本的相关性、组合多样性和序列性)选择关键帧,提升视频理解能力。
  • 基于Transformer架构:结合强大的视觉编码器(如ViT)和语言模型(如Qwen),实现高效的多模态融合和生成。

Ovis2的项目地址

  • GitHub仓库:https://github.com/AIDC-AI/Ovis
  • HuggingFace模型库:https://huggingface.co/collections/AIDC-AI/ovis2

Ovis2的应用场景

  • 研究人员和开发者:从事人工智能、多模态技术研究的专业人员,及需要开发智能应用的开发者,进行模型优化、算法改进或开发多模态应用。
  • 内容创作者:新闻媒体、广告、营销等行业从业者,快速生成图片或视频的描述、文案、标题等,提升创作效率。
  • 教育工作者和学生:教师生成图片或视频的解释性文字,帮助学生理解复杂内容;学生则通过视觉问答功能解决学习中的问题。
  • 企业用户:金融、法律、医疗等行业从业者处理复杂的文档、图像或视频数据,提取关键信息,辅助决策。
  • 普通用户和技术爱好者:对人工智能感兴趣的人群,进行简单的多模态任务,例如生成图片描述或进行视觉问答,探索技术在日常生活中的应用。
GPT-image-1 – OpenAI 推出的最新图像生成模型
Phi-4-Mini – 微软推出专注于文本任务的小型语言模型
Sketch2Anim – 爱丁堡大学等机构推出的2D草图转3D动画框架
GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型
T2I-R1 – 港中文联合上海AI Lab推出文生图模型
分享
Email 复制链接 打印
Share
上一篇 全息流体渐变通用占位特色图 AI 音频编辑迈入新纪元:腾讯混元联合多家顶尖机构发布 MMAE 基准,当前模型精准编辑能力不足 5%
下一篇 BlenderMCP – 基于 MCP 集成的 3D 建模工具
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阿里开源Logics-Parsing:基于Qwen2.5的端到端文档解析模型,PDF转HTML一步到位

站外新闻
AIGC PDF转HTML 文档解析 阿里巴巴
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

奥尔特曼最新反思:AI对白领岗位的冲击远低于预期,短期失业潮并未出现

站外新闻
AI就业影响 openai 白领岗位 萨姆·奥尔特曼 裁员
AIGC 资讯

LCVD – 川大推出的光照可控肖像动画生成框架

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

AI声纹侵权第一案:日本声优起诉TikTok盗用声音,灰色产业链引发版权危机

站外新闻
AIGC TikTok 声纹版权 声音侵权 生成式AI
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.