Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型
AIGC 资讯

Long-VITA – 腾讯优图联合南大、厦大开源的多模态模型

站外新闻
最近更新: 2026年6月9日 上午12:03
SHARE

Long-VITA是什么

Long-VITA 是腾讯优图实验室、南京大学、厦门大学开源的多模态模型,能处理超过100万tokens的长文本输入,在短文本任务中表现出色。Long-VITA基于分阶段训练,逐步扩展视觉和语言的上下文理解能力,支持图像、视频和文本的多模态输入。Long-VITA 用动态分块编码器处理高分辨率图像,基于上下文并行分布式推理实现对无限长度输入的支持。Long-VITA 用开源数据集进行训练,包括漫画摘要、电影剧情等长文本数据,在多个多模态基准测试中达到新的SOTA性能。

阅读目录
  • Long-VITA是什么
  • Long-VITA的主要功能
  • Long-VITA的技术原理
  • Long-VITA的项目地址
  • Long-VITA的应用场景

Long-VITA

Long-VITA的主要功能

  • 长文本处理能力:能处理超过100万tokens的输入,支持长文本、长视频和高分辨率图像的多模态任务。
  • 多模态理解:支持图像、视频和文本的输入,适用于视频理解、高分辨率图像分析、长文本生成等任务。
  • 上下文扩展能力:基于分阶段训练,逐步扩展模型的上下文窗口,且保持对短文本任务的高性能。
  • 开源数据训练:用开源数据集进行训练,无需内部数据,降低开发门槛。
  • 可扩展性:支持上下文并行分布式推理,能处理无限长度的输入,适用于大规模部署。

Long-VITA的技术原理

  • 分阶段训练:
    • 视觉-语言对齐:冻结语言模型和视觉编码器,仅训练投影器,建立视觉和语言特征的初始连接。
    • 通用知识学习:用图像-文本数据进行多任务学习,提升模型的通用知识理解能力。
    • 长序列微调:逐步扩展上下文长度(从128K到1M),加入长文本和视频理解数据,优化模型对长内容的理解能力。
  • 上下文并行分布式推理:基于张量并行和上下文并行技术,支持对无限长度输入的推理,解决长文本处理中的内存瓶颈。
  • 动态分块编码器:用动态分块策略高效处理高分辨率图像,支持不同宽高比的输入。
  • 掩码语言建模头:在推理阶段,基于掩码输出logits,显著降低内存占用,支持大规模长文本生成。

Long-VITA的项目地址

  • GitHub仓库:https://github.com/VITA-MLLM/Long-VITA
  • HuggingFace模型库:https://huggingface.co/VITA-MLLM
  • arXiv技术论文:https://arxiv.org/pdf/2502.05177v1

Long-VITA的应用场景

  • 视频内容生成:自动生成视频摘要、字幕或回答视频相关问题。
  • 图像分析:辅助艺术创作、医学影像诊断或卫星图像分析。
  • 长文本处理:生成小说、学术报告或文档摘要。
  • 智能对话:在客服、教育或智能家居中,通过文字、图片和视频与用户交互。
  • 实时会议辅助:提供实时翻译、字幕和会议记录生成。
突破语言壁垒!阿里通义Qwen3-LiveTranslate:3秒延迟、18语种、视觉增强的同传大模型
AI与航天三巨头集体IPO:SpaceX、OpenAI、Anthropic万亿募资潮,2026美股能否消化史上最大抽血?
Magma – 微软研究院联合华盛顿等高校推出的多模态AI基础模型
GPT-5.3-Codex-Spark:OpenAI首发实时编程模型,1000+ tokens/s极速编码体验
GRUtopia 2.0 – 上海 AI Lab 推出的通用具身智能仿真平台
分享
Email 复制链接 打印
Share
上一篇 Muse – 微软研究院推出的生成式AI模型
下一篇 Ingredients – 多ID照片定制视频生成框架,基于多ID照片与视频扩散相结合
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
AI 工具 AIGC 资讯
微软研究院发布Code Researcher:AI Agent深度挖掘代码库与提交历史,自动化修复系统级崩溃
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

阿里通义Qwen3-ASR-Flash语音识别模型发布:支持11种语言与歌声识别,多语种Benchmark表现最优

站外新闻
AIGC Qwen3 多模态模型 语音识别 语音转文字
AIGC 资讯

AgiBot Digital World – 智元机器人推出的机器人仿真框架

站外新闻
AIGC 资讯

DiffEditor – 北大联合腾讯推出的细粒度图像编辑工具

站外新闻
AI 工具AIGC 资讯

微软重磅发布Deep Video Discovery:AI智能体如何革新长视频分析?

站外新闻
AI智能体 Deep Video Discovery 大型语言模型 微软 视频理解
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.