Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型
AIGC 资讯

VideoChat-Flash – 上海 AI Lab 等机构推出针对长视频建模的多模态大模型

站外新闻
最近更新: 2026年6月9日 下午1:19
SHARE

VideoChat-Flash是什么

VideoChat-Flash 是上海人工智能实验室和南京大学等机构联合开发的针对长视频建模的多模态大语言模型(MLLM),模型通过分层压缩技术(HiCo)高效处理长视频,显著减少计算量,同时保留关键信息。采用多阶段从短到长的学习方案,结合真实世界长视频数据集 LongVid,进一步提升对长视频的理解能力。

阅读目录
  • VideoChat-Flash是什么
  • VideoChat-Flash的主要功能
  • VideoChat-Flash的技术原理
  • VideoChat-Flash的项目地址
  • VideoChat-Flash的应用场景

VideoChat-Flash

VideoChat-Flash的主要功能

  • 长视频理解能力:VideoChat-Flash 通过分层压缩技术(HiCo)有效处理长视频,能处理长达数小时的视频内容。在“针在干草堆中”(NIAH)任务中,首次在开源模型中实现了 10,000 帧(约 3 小时视频)的 99.1% 准确率。
  • 高效模型架构:模型通过将每个视频帧编码为仅 16 个 token,显著降低了计算量,推理速度比前代模型快 5-10 倍。多阶段从短到长的学习方案,结合真实世界的长视频数据集 LongVid,进一步提升了模型的性能。
  • 强大的视频理解能力:VideoChat-Flash 在多个长视频和短视频基准测试中均表现出色,超越了其他开源 MLLM 模型,甚至在某些任务中超过了规模更大的模型。
  • 多跳上下文理解:VideoChat-Flash 支持多跳 NIAH 任务,能追踪长视频中的多个关联图像序列,进一步提升了对复杂上下文的理解能力。

VideoChat-Flash的技术原理

  • 分层压缩技术(HiCo):HiCo 是 VideoChat-Flash 的核心创新之一,旨在高效处理长视频中的冗余视觉信息。
    • 片段级压缩:将长视频分割为较短的片段,对每个片段进行独立编码。
    • 视频级压缩:在片段编码的基础上,进一步压缩整个视频的上下文信息,减少需要处理的标记数量。
    • 语义关联优化:结合用户查询的语义信息,进一步减少不必要的视频标记,从而降低计算量。
  • 多阶段学习方案:VideoChat-Flash 采用从短视频到长视频的多阶段学习方案,逐步提升模型对长上下文的理解能力。
    • 初始阶段:使用短视频及其注释进行监督微调,建立模型的基础理解能力。
    • 扩展阶段:逐步引入长视频数据,训练模型处理更复杂的上下文。
    • 混合语料训练:最终在包含短视频和长视频的混合语料上进行训练,以实现对不同长度视频的全面理解。
  • 真实世界长视频数据集 LongVid:为了支持模型训练,研究团队构建了 LongVid 数据集,包含 30 万小时的真实世界长视频和 2 亿字的注释。该数据集为模型提供了丰富的训练素材,使其能够更好地适应长视频理解任务。
  • 模型架构:VideoChat-Flash 的架构包括三个主要部分:视觉编码器、视觉-语言连接器和大语言模型(LLM)。通过这种分层架构,模型能高效地将视频内容编码为紧凑的标记序列,通过 LLM 进行长上下文建模。

VideoChat-Flash的项目地址

  • GitHub仓库:https://github.com/OpenGVLab/VideoChat-Flash
  • arXiv技术论文:https://arxiv.org/pdf/2501.00574

VideoChat-Flash的应用场景

  • 视频字幕生成与翻译:模型能生成详细且准确的视频字幕,适用于多语言翻译和无障碍字幕生成,帮助观众更好地理解视频内容。
  • 视频问答与交互:VideoChat-Flash 支持基于视频内容的自然语言问答,用户可以通过提问获取视频中的关键信息,例如电影剧情解析、纪录片中的知识点等。
  • 具身AI与机器人学习:在具身AI领域,VideoChat-Flash 可以通过长时间的自我视角视频帮助机器人学习复杂的任务,例如制作咖啡等,通过分析视频中的关键事件来指导机器人完成任务。
  • 体育视频分析与集锦生成:模型能分析体育比赛视频,提取关键事件并生成集锦,帮助观众快速了解比赛的精彩瞬间。
  • 监控视频分析:VideoChat-Flash 可以处理长时间的监控视频,识别和追踪关键事件,提高监控系统的效率和准确性。
Shandu – AI研究工具,自动进行多层次信息挖掘和分析
GPDiT – 清华北大联合阶跃星辰等推出的视频生成模型
DreamFit – 字节联合清华和中山大学推出的虚拟试衣框架
GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型
MakeAnything – 新加坡国立大学开源的一致性图片序列生成框架
分享
Email 复制链接 打印
Share
上一篇 日日新融合大模型 – 商汤科技推出的原生融合模态大模型
下一篇 PsycoLLM – 合肥工业大学推出的中文心理大语言模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

DataClaw开源发布:一键导出AI对话,自动生成安全训练集,助力大模型微调
AI 工具 AIGC 资讯
OpenSandbox:阿里巴巴开源AI应用安全沙箱平台,为Agent与代码执行构建企业级隔离环境
AI 工具 AIGC 资讯
Goose:Block开源本地AI Agent框架,自主Debug、多模型切换,颠覆传统开发!
AI 工具 AIGC 资讯
阿里通义Fun-CosyVoice3.5重磅发布:一句话控制语气语速,13语种低延迟语音生成
AI 工具 AIGC 资讯

相关推荐

流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

阿里语音大模型横扫Artificial Analysis三冠:Fun-Realtime-TTS全球第五,ASR、Chat、TTS国产登顶,实时合成技术引领深度智能时代

站外新闻
Artificial Analysis ASR Fun-Realtime-TTS 端到端语音对话 语音大模型
AIGC 资讯

Sketch2Anim – 爱丁堡大学等机构推出的2D草图转3D动画框架

站外新闻
AI 工具AIGC 资讯

告别排队!腾讯ima Copilot全面开放,知识技能共享生态引爆AIGC新潮流

站外新闻
AIGC AI智能体 Copilot 知识管理 腾讯ima
AIGC 资讯

node-DeepResearch – Deep Research开源复现版 AI Agent,支持多步推理和复杂查询

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.