Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型
AIGC 资讯

InternVideo2.5 – 上海 AI Lab 联合南大、中科院开源的视频多模态大模型

站外新闻
最近更新: 2026年6月8日 下午6:29
SHARE

InternVideo2.5是什么

InternVideo2.5是上海人工智能实验室联合南京大学、中科院深圳先进技术研究院共同开源的视频多模态大模型。在视频理解领域取得了显著进展,特别是在长视频处理和细粒度时空感知方面表现出色。模型能处理长达万帧的视频,视频处理长度较前代提升了6倍,可在长视频中精准定位目标帧,实现“大海捞针”式的检索。支持通用视频问答,完成目标跟踪、分割等专业视觉任务。

阅读目录
  • InternVideo2.5是什么
  • InternVideo2.5的主要功能
  • InternVideo2.5的技术原理
  • InternVideo2.5的项目地址
  • InternVideo2.5的应用场景

InternVideo2.5

InternVideo2.5的主要功能

  • 超长视频处理:InternVideo2.5能处理长达万帧的视频,视频处理能力较前代提升了6倍(从3000帧提升到10000帧)。能在长视频中精准定位目标帧,实现“大海捞针”式的检索,显著提升了视频分析的效率。
  • 细粒度时空感知:模型能准确识别和定位视频中的物体、场景和动作,理解细微的时空关系。支持通用视频问答,完成目标跟踪、分割等专业视觉任务。可以在复杂场景下识别物体的运动轨迹和状态变化,为自动驾驶和监控安防等领域提供精准的视觉支持。
  • 多模态融合:InternVideo2.5将视觉感知和语言理解深度融合,能根据视频内容生成详细的描述和回答用户的问题。
  • 专业视觉任务支持:通过任务偏好优化(TPO),InternVideo2.5能处理多种专业视觉任务,如目标跟踪、分割、时间定位等。能根据任务需求动态调整模型的处理策略,在不同场景下提供最优的视觉分析能力。
  • 高效预训练与优化:InternVideo2.5采用渐进式多阶段训练方案,使用超过30万小时的视频语料进行预训练。提升模型的性能,降低了训练成本。

InternVideo2.5的技术原理

  • 长时丰富上下文建模(LRC):LRC通过扩展模型的上下文长度和细节感知能力,使InternVideo2.5能处理长达万帧的视频。核心在于:
    • 视频长度自适应令牌表示:根据视频的长度和内容特征动态调整帧采样策略。例如,短序列(如秒级视频)采用密集采样(每秒15帧),长序列(如分钟或小时级视频)则采用稀疏采样(每秒1帧),确保在不同时间尺度上能有效捕捉运动信息。
    • 分层上下文压缩(HiCo):通过分层压缩机制,减少视频信号中的时空冗余,同时保留关键信息。具体包括:
      • 时空令牌合并:基于语义相似性进行令牌合并,非基于位置的简单池化操作。在保留细节的同时,显著减少了冗余信息。
      • 多模态上下文整合:在语言模型处理阶段,进一步整合压缩后的视觉令牌,确保视觉和语言信息的深度融合。
  • 任务偏好优化(TPO):TPO通过将细粒度视觉任务的标注信息转化为可微分的任务偏好,指导模型学习。使InternVideo2.5能处理多种专业视觉任务,如目标跟踪、分割、时间定位等。具体实现方式包括:
    • 任务特定组件集成:在模型中加入任务特定的组件(如时间头、掩码适配器等),并通过任务特定数据集进行训练。
    • 视觉概念预训练:使用大量图像和视频文本对进行预训练,进一步提升模型的视觉理解能力。
  • 渐进式多阶段训练方案:InternVideo2.5采用渐进式多阶段训练方案,逐步提升模型的性能:
    • 基础学习阶段:进行任务识别指令调整和视频语言对齐训练。
    • 细粒度感知训练阶段:通过集成任务特定组件和视觉概念预训练,增强视觉理解能力。
    • 综合优化阶段:在混合语料库上进行多任务训练和指令调整,优化所有模型组件。
  • 高效分布式系统:为了支持大规模视频数据的训练和测试,InternVideo2.5开发了基于多模态序列并行的分布式系统。系统结合了序列和张量分布式处理,以及动态数据打包技术,显著提高了训练效率。

InternVideo2.5的项目地址

  • Github仓库:https://github.com/OpenGVLab/InternVideo/tree/main/InternVideo2.5
  • HuggingFace模型库:https://huggingface.co/OpenGVLab/InternVideo2_5
  • arXiv技术论文:https://arxiv.org/pdf/2501.12386

InternVideo2.5的应用场景

  • 视频内容理解和检索:InternVideo2.5能根据用户的文本查询快速找到相关的视频内容,支持复杂的视频检索任务。
  • 视频编辑和创作:InternVideo2.5能为视频编辑提供智能支持,例如自动生成视频的精彩片段、生成视频的字幕或解说词。可以根据用户的指令对视频进行剪辑和调整,提高视频创作的效率。
  • 监控安防:在监控安防领域,InternVideo2.5能实时分析监控视频,快速定位异常事件并发出警报。
  • 自动驾驶:InternVideo2.5能实时处理自动驾驶车辆的摄像头数据,准确识别道路标志、交通信号和障碍物。
ZenCtrl – Fotographer AI 推出的商品图生成AI工具
TripoSR – Stability AI 联合 VAST 开源的 3D 生成模型
企业微信官方开源wecom-cli:AI Agent一站式操控7大核心能力,命令行工具革新企业协同
颠覆性突破!全球首个多智能体AI科学家Robin 2小时完成900小时科研,登顶Nature
NVIDIA开源Audio Flamingo Next:7B参数模型如何实现30分钟长音频理解并超越Gemini?
分享
Email 复制链接 打印
Share
上一篇 ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

ACE-Step – ACE Studio联合阶跃星辰开源的音乐生成基础模型
AIGC 资讯
AndroidGen – 智谱推出增强大语言模型 Agent 能力的框架
AIGC 资讯
ACE++ – 阿里通义推出的升级版图像生成与编辑模型
AIGC 资讯
Llama Nemotron – 英伟达推出的系列推理模型
AIGC 资讯

相关推荐

量子芯片科技感占位特色图
AI 工具AIGC 资讯

法拉利与IBM联手:生成式AI重塑F1车迷体验,App活跃度飙升62%

站外新闻
F1 IBM 法拉利 生成式AI 车迷体验
AI 工具AIGC 资讯

重磅!ChatGPT深度整合PowerPoint:用自然语言秒生幻灯片,AI办公自动化进入多模态全流程时代

站外新闻
AI办公自动化 chatgpt Microsoft PowerPoint openai 企业级AI
AI 工具AIGC 资讯

阶跃星辰StepAudio 2.5 TTS发布:语境感知AI语音合成,3秒克隆音色,告别‘AI味’朗读

站外新闻
AI语音克隆 StepAudio 2.5 TTS 语境感知TTS 语音合成 阶跃星辰
AI 工具AIGC 资讯

腾讯混元3D世界模型2.0全面开源:一键文图生3D场景,兼容UE/Unity引擎,性能对标商业产品

站外新闻
3D世界模型 3D高斯溅射 AIGC 开源大模型 腾讯混元
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.