Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
AIGC 资讯

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

站外新闻
最近更新: 2026年6月9日 上午12:03
SHARE

Long-VITA是什么

Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像,基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练,包括漫画摘要、电影剧情等长文本数据,在多个多模态基准测试中达到新的SOTA性能。

阅读目录
  • Long-VITA是什么
  • Long-VITA的主要功能
  • Long-VITA的技术原理
  • Long-VITA的项目地址
  • Long-VITA的应用场景

Long-VITA

Long-VITA的主要功能

  • 长文本处理能力:能处理超过100万tokens的输入,支持长文本、长视频和高分辨率图像的多模态任务。
  • 多模态理解:支持图像、视频和文本的输入,适用于视频理解、高分辨率图像分析、长文本生成等任务。
  • 上下文扩展能力:基于分阶段训练,逐步扩展模型的上下文窗口,且保持对短文本任务的高性能。
  • 开源数据训练:用开源数据集进行训练,无需内部数据,降低开发门槛。
  • 可扩展性:支持上下文并行分布式推理,能处理无限长度的输入,适用于大规模部署。

Long-VITA的技术原理

  • 分阶段训练:
    • 视觉-语言对齐:冻结语言模型和视觉编码器,仅训练投影器,建立视觉和语言特征的初始连接。
    • 通用知识学习:用图像-文本数据进行多任务学习,提升模型的通用知识理解能力。
    • 长序列微调:逐步扩展上下文长度(从128K到1M),加入长文本和视频理解数据,优化模型对长内容的理解能力。
  • 上下文并行分布式推理:基于张量并行和上下文并行技术,支持对无限长度输入的推理,解决长文本处理中的内存瓶颈。
  • 动态分块编码器:用动态分块策略高效处理高分辨率图像,支持不同宽高比的输入。
  • 掩码语言建模头:在推理阶段,基于掩码输出logits,显著降低内存占用,支持大规模长文本生成。

Long-VITA的项目地址

  • GitHub仓库:https://github.com/VITA-MLLM/Long-VITA
  • HuggingFace模型库:https://huggingface.co/VITA-MLLM
  • arXiv技术论文:https://arxiv.org/pdf/2502.05177v1

Long-VITA的应用场景

  • 视频内容生成:自动生成视频摘要、字幕或回答视频相关问题。
  • 图像分析:辅助艺术创作、医学影像诊断或卫星图像分析。
  • 长文本处理:生成小说、学术报告或文档摘要。
  • 智能对话:在客服、教育或智能家居中,通过文字、图片和视频与用户交互。
  • 实时会议辅助:提供实时翻译、字幕和会议记录生成。
BILIVE – 开源AI录播工具,一站式自动直播录制与处理
470亿美元!Anthropic年化收入狂飙,Claude企业级应用引爆AI商业化新纪元
Kimi-Audio – Moonshot AI 开源的音频基础模型
Luma AI发布Uni-1:首个边思考边创作的统一图像生成模型,推理能力碾压GPT Image
Fara1.5 – 微软推出的浏览器端 AI 智能体模型系列
分享
Email 复制链接 打印
Share
上一篇 Muse – 微软研究院推出的生成式AI模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Muse – 微软研究院推出的生成式AI模型
AIGC 资讯
TicVoice 7.0 – 出门问问推出的第七代语音合成引擎
AIGC 资讯
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成
AIGC 资讯
Motia – AI Agent 开发框架,支持多种编程语言、一键部署智能体
AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阿里Qwen3.5-Omni全模态大模型发布:215项SOTA霸榜,超越Gemini-3.1 Pro,开启Vibe Coding新纪元

站外新闻
Gemini-3.1 Pro Qwen3.5-Omni Vibe Coding 全模态大模型 阿里通义
AI 工具AIGC 资讯

明略科技开源Mano-P 1.0:纯视觉GUI智能体模型,OSWorld霸榜,端侧本地部署重塑自动化

站外新闻
GUI-VLA智能体 Mano-P 1.0 明略科技 端侧部署 纯视觉理解
AIGC 资讯

超线性回报 [译]

宝玉的分享
AIGC 资讯

VideoGrain – 悉尼科技大学和浙大推出的视频编辑框架

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.