Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
AIGC 资讯

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

StreamBridge是什么

StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互,引入轻量级激活模型实现主动响应功能。研究团队推出包含约 60 万个样本的 Stream-IT 数据集,提升流式视频理解能力。在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上的测试显示,StreamBridge 显著提升模型在多轮实时理解和主动响应方面的能力,在流式视频理解领域展现出强大潜力。

阅读目录
  • StreamBridge是什么
  • StreamBridge的主要功能
  • StreamBridge的技术原理
  • StreamBridge的项目地址
  • StreamBridge的应用场景

StreamBridge

StreamBridge的主要功能

  • 多轮实时理解:支持长上下文的多轮交互,在处理最新视频片段时保留历史视觉和对话上下文。
  • 主动响应:模型能像人类一样主动监控视频流,在无明确指令的情况下及时输出反馈。
  • 灵活集成:支持无缝集成到现有的视频大语言模型中,无需对基础模型进行大规模修改。
  • 数据支持:提供大规模的流式视频理解数据集Stream-IT,包含约60万个样本,支持多样化的指令格式,用在训练和优化模型。

StreamBridge的技术原理

  • 记忆缓冲区:存储和检索视频帧的嵌入信息,支持多轮交互。每个新视频帧被独立编码追加到缓冲区中。当接收到用户查询时,缓冲区中的内容被扁平化为一个单一的输入嵌入序列,送入语言模型进行响应生成。
  • 轮次衰减压缩策略:在每次响应生成之前,如果输入嵌入的长度超过预定义的最大长度,模型从最早的对话轮次开始,逐帧合并视觉标记,直到总长度低于最大长度。合并操作基于平均池化实现,确保最近的视觉上下文被保留。
  • 轻量级激活模型:激活模型是独立的轻量级多模态大语言模型(MLLM),与主视频大语言模型并行运行。激活模型接收当前帧(及用户查询和可选的前几帧)作为输入,输出一个二进制信号,指示主模型是否生成响应。激活模型用一个得分头进行二分类(是否响应),在训练时引入一个可学习的激活标记<ACT>,监督激活时机。
  • Stream-IT数据集:基于从大规模视频字幕语料库中筛选语义相关的短片段,生成多轮问答序列,模拟真实的实时用户交互。数据集包含约60万个样本,支持多种任务格式,如密集视频字幕、顺序步骤识别、基于视频的问题回答等。

StreamBridge的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2505.05467

StreamBridge的应用场景

  • 实时视频交互:提升视频会议、在线教育等场景的实时互动体验。
  • 自动驾驶辅助:实时处理路况视频,辅助自动驾驶决策。
  • 智能监控:实时分析监控视频,快速发现异常行为。
  • 机器人视觉:助力机器人实时理解环境,实现自然交互。
  • 内容创作:辅助视频创作和编辑,提供实时内容分析。
字节跳动Seeduplex全双工语音模型上线:边听边说、误打断率降50%,豆包App亿级用户体验实时AI对话
Qwen-MT:阿里通义千问重磅发布,支持92种语言,API成本低至0.5美元,如何重塑机器翻译格局?
腾讯文档行业首发「人机双写」原生接入WorkBuddy构建AI原生编辑器
Ming‑Flash‑Omni 2.0 – 蚂蚁开源的全模态大模型
GPT-5.3 Instant:OpenAI免费轻量模型发布,告别啰嗦说教,联网搜索深度解析更智能
分享
Email 复制链接 打印
Share
上一篇 DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计
下一篇 MiniRAG – 港大推出高效部署小语言模型的新型 RAG 系统
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

GPT-5.4发布:首个超越人类的AI Agent,75%电脑操作成功率重新定义生产力
AI 工具 AIGC 资讯
斯坦福大学联合犹他大学推出 WonderPlay 框架:仅用单张图片即可生成动态3D场景,支持刚体、布料、液体等多种物理材质模拟
AI 工具 AIGC 资讯
腾讯混元HunyuanVideo-Avatar:AI语音数字人技术革新,多角色情感对话视频一键生成
AI 工具 AIGC 资讯
中科院重磅开源Jodi:一个模型统一图像生成与理解,开启多模态AI新范式
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Wear-Any-Way – 阿里拍立淘团队推出自由定制的虚拟试穿框架

站外新闻
AIGC 资讯

腾讯混元Turbo S – 腾讯推出的新一代快思考模型

站外新闻
AI 工具AIGC 资讯

阶跃星辰开源GELab-Zero:移动端GUI Agent模型,4B参数本地部署,Android日常任务准确率73.4%

站外新闻
AI Agent GUI Agent 开源模型 移动自动化 阶跃星辰
AIGC 资讯

Agentic Object Detection – 吴恩达团队推出的Agent目标检测技术

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.