Ola – 清华联合腾讯等推出的全模态语言模型

最近更新: 2026年6月8日下午6:53

Ola是什么

Ola是清华大学、腾讯 Hunyuan 研究团队和新加坡国立大学 S-Lab 合作开发的全模态语言模型。通过渐进式模态对齐策略，逐步扩展语言模型支持的模态，从图像和文本开始，再引入语音和视频数据，实现对多种模态的理解。Ola 的架构支持全模态输入，包括文本、图像、视频和音频，能同时处理这些输入。Ola 设计了逐句解码方案用于流式语音生成，提升交互体验。

阅读目录

Ola是什么
Ola的主要功能
Ola的技术原理
Ola的项目地址
Ola的应用场景

Ola

Ola的主要功能

多模态理解：支持文本、图像、视频和音频四种模态的输入，能同时处理这些输入，在理解任务中表现出色。
实时流式解码：支持用户友好的实时流式解码，可用于文本和语音生成，提供流畅的交互体验。
渐进式模态对齐：通过逐步扩展语言模型支持的模态，从图像和文本开始，再引入语音和视频数据，实现对多种模态的理解。
高性能表现：在多模态基准测试中性能卓越，超越了现有的开源全模态 LLMs，在某些任务上与专门的单模态模型相当。

Ola的技术原理

渐进式模态对齐策略：Ola 的训练流程从最基础的模态（图像和文本）开始，逐步引入语音数据（连接语言和音频知识）以及视频数据（连接所有模态）。这种渐进式学习方法使模型能逐步扩展其模态理解能力，保持了跨模态对齐数据的规模相对较小，降低了从现有视觉-语言模型开发全模态模型的难度和成本。
多模态输入与实时流式解码：Ola 支持全模态输入，包括文本、图像、视频和音频，能同时处理这些输入。Ola 设计了逐句解码方案，用于流式语音生成，支持用户友好的实时交互体验。
跨模态数据的高效利用：为了更好地捕捉模态之间的关系，Ola 的训练数据包括传统的视觉和音频数据，还设计了跨模态视频-音频数据。数据通过视频中的视觉和音频信息构建桥梁，帮助模型学习模态之间的内在联系。
高性能架构设计：Ola 的架构支持高效的多模态处理，包括视觉编码器、音频编码器、文本解码器和语音解码器。通过局部-全局注意力池化（Local-Global Attention Pooling）等技术，模型能更好地融合不同模态的特征。