Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

最近更新: 2026年6月9日上午12:03

Long-VITA是什么

Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型，能处理超过100万tokens的长文本输入，在短文本任务中表现出色。Long-VITA基于分阶段训练，逐步扩展视觉和语言的上下文理解能力，支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像，基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练，包括漫画摘要、电影剧情等长文本数据，在多个多模态基准测试中达到新的SOTA性能。

阅读目录

Long-VITA是什么
Long-VITA的主要功能
Long-VITA的技术原理
Long-VITA的项目地址
Long-VITA的应用场景

Long-VITA

Long-VITA的主要功能

长文本处理能力：能处理超过100万tokens的输入，支持长文本、长视频和高分辨率图像的多模态任务。
多模态理解：支持图像、视频和文本的输入，适用于视频理解、高分辨率图像分析、长文本生成等任务。
上下文扩展能力：基于分阶段训练，逐步扩展模型的上下文窗口，且保持对短文本任务的高性能。
开源数据训练：用开源数据集进行训练，无需内部数据，降低开发门槛。
可扩展性：支持上下文并行分布式推理，能处理无限长度的输入，适用于大规模部署。

Long-VITA的技术原理

分阶段训练：
- 视觉-语言对齐：冻结语言模型和视觉编码器，仅训练投影器，建立视觉和语言特征的初始连接。
- 通用知识学习：用图像-文本数据进行多任务学习，提升模型的通用知识理解能力。
- 长序列微调：逐步扩展上下文长度（从128K到1M），加入长文本和视频理解数据，优化模型对长内容的理解能力。
上下文并行分布式推理：基于张量并行和上下文并行技术，支持对无限长度输入的推理，解决长文本处理中的内存瓶颈。
动态分块编码器：用动态分块策略高效处理高分辨率图像，支持不同宽高比的输入。
掩码语言建模头：在推理阶段，基于掩码输出logits，显著降低内存占用，支持大规模长文本生成。

Long-VITA的项目地址

GitHub仓库：https://github.com/VITA-MLLM/Long-VITA
HuggingFace模型库：https://huggingface.co/VITA-MLLM
arXiv技术论文：https://arxiv.org/pdf/2502.05177v1

Long-VITA的应用场景

视频内容生成：自动生成视频摘要、字幕或回答视频相关问题。
图像分析：辅助艺术创作、医学影像诊断或卫星图像分析。
长文本处理：生成小说、学术报告或文档摘要。
智能对话：在客服、教育或智能家居中，通过文字、图片和视频与用户交互。
实时会议辅助：提供实时翻译、字幕和会议记录生成。

Muse – 微软研究院推出的生成式AI模型

Ingredients – 多ID照片定制视频生成框架，基于多ID照片与视频扩散相结合

发表评价

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

Long-VITA是什么

Long-VITA的主要功能

Long-VITA的技术原理

Long-VITA的项目地址

Long-VITA的应用场景

发表评价取消回复

最近更新

MotionClone – 文本驱动的AI视频动作克隆框架

Mini-Monkey – 华科联合华南理工推出的多模态AI模型

MDT-A2G – 复旦&腾讯优图推出的AI模型，可根据语音同步生成手势

ASAM – vivo公司推出的AI图像分割模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Long-VITA是什么

Long-VITA的主要功能

Long-VITA的技术原理

Long-VITA的项目地址

Long-VITA的应用场景

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复