Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架
AIGC 资讯

StreamBridge – 苹果联合复旦推出的端侧视频大语言模型框架

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

StreamBridge是什么

StreamBridge 是苹果公司与复旦大学联合推出的端侧视频大语言模型(Video-LLMs)框架,能帮助 AI 实时理解直播流视频。框架基于内存缓冲区和轮次衰减压缩策略支持长上下文交互,引入轻量级激活模型实现主动响应功能。研究团队推出包含约 60 万个样本的 Stream-IT 数据集,提升流式视频理解能力。在主流离线模型如 LLaVA-OV-7B、Qwen2-VL-7B 和 Oryx-1.5-7B 上的测试显示,StreamBridge 显著提升模型在多轮实时理解和主动响应方面的能力,在流式视频理解领域展现出强大潜力。

阅读目录
  • StreamBridge是什么
  • StreamBridge的主要功能
  • StreamBridge的技术原理
  • StreamBridge的项目地址
  • StreamBridge的应用场景

StreamBridge

StreamBridge的主要功能

  • 多轮实时理解:支持长上下文的多轮交互,在处理最新视频片段时保留历史视觉和对话上下文。
  • 主动响应:模型能像人类一样主动监控视频流,在无明确指令的情况下及时输出反馈。
  • 灵活集成:支持无缝集成到现有的视频大语言模型中,无需对基础模型进行大规模修改。
  • 数据支持:提供大规模的流式视频理解数据集Stream-IT,包含约60万个样本,支持多样化的指令格式,用在训练和优化模型。

StreamBridge的技术原理

  • 记忆缓冲区:存储和检索视频帧的嵌入信息,支持多轮交互。每个新视频帧被独立编码追加到缓冲区中。当接收到用户查询时,缓冲区中的内容被扁平化为一个单一的输入嵌入序列,送入语言模型进行响应生成。
  • 轮次衰减压缩策略:在每次响应生成之前,如果输入嵌入的长度超过预定义的最大长度,模型从最早的对话轮次开始,逐帧合并视觉标记,直到总长度低于最大长度。合并操作基于平均池化实现,确保最近的视觉上下文被保留。
  • 轻量级激活模型:激活模型是独立的轻量级多模态大语言模型(MLLM),与主视频大语言模型并行运行。激活模型接收当前帧(及用户查询和可选的前几帧)作为输入,输出一个二进制信号,指示主模型是否生成响应。激活模型用一个得分头进行二分类(是否响应),在训练时引入一个可学习的激活标记<ACT>,监督激活时机。
  • Stream-IT数据集:基于从大规模视频字幕语料库中筛选语义相关的短片段,生成多轮问答序列,模拟真实的实时用户交互。数据集包含约60万个样本,支持多种任务格式,如密集视频字幕、顺序步骤识别、基于视频的问题回答等。

StreamBridge的项目地址

  • arXiv技术论文:https://arxiv.org/pdf/2505.05467

StreamBridge的应用场景

  • 实时视频交互:提升视频会议、在线教育等场景的实时互动体验。
  • 自动驾驶辅助:实时处理路况视频,辅助自动驾驶决策。
  • 智能监控:实时分析监控视频,快速发现异常行为。
  • 机器人视觉:助力机器人实时理解环境,实现自然交互。
  • 内容创作:辅助视频创作和编辑,提供实时内容分析。
LlamaV-o1 – 多模态视觉推理模型,采用逐步推理学习方法解决复杂任务
CLaMP 3- 清华团队推出的音乐信息检索框架
渣打银行裁员8000人:AI替代低价值人力,银行业‘冰冷转型’下的人类岗位危机
Step-Audio – 阶跃星辰开源的语音交互模型
科大讯飞AI眼镜重磅发布:4299元内置龙虾助手GlassClaw,122种语言实时翻译重塑生产力
分享
Email 复制链接 打印
Share
上一篇 DeepEP – DeepSeek 开源的专家并行通信库,专为 MoE 训练和推理设计
下一篇 MiniRAG – 港大推出高效部署小语言模型的新型 RAG 系统
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

阿里通义Fun-CosyVoice3.5重磅发布:一句话控制语气语速,13语种低延迟语音生成
AI 工具 AIGC 资讯
小红书FireRed-OCR重磅开源:2B参数模型击败GPT-5.2,重塑文档结构解析新范式
AI 工具 AIGC 资讯
阿里通义发布Fun-AudioGen-VD:一站式AI音色设计与场景化音频生成模型,开启专业声音创作新纪元
AI 工具
荣耀x复旦重磅发布MagicAgent:32B参数智能体模型全面超越GPT-5.2,重塑手机AI体验
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

CogVideoX-Flash – 智谱推出的首个免费AI视频生成模型

站外新闻
量子芯片科技感占位特色图
AI 工具AIGC 资讯

谷歌AI翻车!竟把’Google’拼错,大模型‘不识字’的硬伤藏不住了

站外新闻
AI摘要 Transformer 大语言模型 词元 谷歌
AIGC 资讯

百聆 – AI语音对话助手,端到端时延低至800ms

站外新闻
AIGC 资讯

Claude 3.7 Max – Cursor 上线的最新 AI 模型,支持200k上下文

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.