Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
AIGC 资讯

LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型

站外新闻
最近更新: 2026年6月8日 下午5:14
SHARE

LiveCC是什么

LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。LiveCC 推出 Live-CC-5M 数据集用在预训练,和 Live-WhisperX-526K 数据集用在高质量的监督微调。LiveCC 设计了 LiveSports-3K 基准测试,用在评估模型的实时视频评论能力。实验表明,LiveCC 在实时视频评论和视频问答任务上表现出色,展现出低延迟和高质量的生成能力。

阅读目录
  • LiveCC是什么
  • LiveCC的主要功能
  • LiveCC的技术原理
  • LiveCC的项目地址
  • LiveCC的应用场景

LiveCC

LiveCC的主要功能

  • 实时视频评论:根据视频内容生成连续的、与人类类似的实时评论,适用于体育赛事、新闻播报、教学视频等多种场景。
  • 视频问答:回答与视频内容相关的问题,帮助用户更好地理解视频中的事件和细节。
  • 低延迟处理:用极低的延迟(每帧小于0.5秒)处理视频流,支持实时应用。
  • 多场景适应:适用于多种视频类型,包括体育、新闻、教育、娱乐等。

LiveCC的技术原理

  • 流式训练方法:将自动语音识别(ASR)的单词与视频帧按照时间戳密集交错,让模型学习到时间对齐的视觉-语言关系。模拟人类观看视频时的实时感知过程,让模型生成与视频内容紧密相关的评论。
  • 大规模数据集:从YouTube视频中提取的ASR字幕构建两个数据集:Live-CC-5M(用在预训练)和Live-WhisperX-526K(用在高质量监督微调)。数据集为模型提供丰富的训练素材。
  • 模型架构:基于Qwen2-VL模型架构,结合视觉编码器和语言模型,处理视频帧和文本信息。模型基于自回归的方式预测文本令牌,将视频令牌作为非预测输入。
  • 实时推理:在推理阶段,LiveCC模型逐帧处理输入视频,生成实时评论。为提高效率,模型缓存之前的提示、视觉帧和生成的文本,加速语言解码。
  • 评估方法:基于LiveSports-3K基准测试评估模型的实时评论能力,用LLM-as-a-judge框架比较不同模型生成的评论质量。

LiveCC的项目地址

  • 项目官网:https://showlab.github.io/livecc/
  • GitHub仓库:https://github.com/showlab/livecc
  • HuggingFace模型库:https://huggingface.co/collections/chenjoya/livecc
  • arXiv技术论文:https://arxiv.org/pdf/2504.16030
  • 在线体验Demo:https://huggingface.co/spaces/chenjoya/LiveCC

LiveCC的应用场景

  • 体育赛事:提供实时评论和赛事分析,增强观众体验。
  • 新闻报道:辅助实时新闻解读,提升报道的深度和专业性。
  • 教育领域:为教学视频生成讲解,辅助技能培训。
  • 娱乐媒体:为影视内容提供实时剧情解读,增加互动性。
  • 智能助手:结合视频内容提供实时信息,提升交互体验。
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
Dolphin – 清华联合海天瑞声推出的语音识别大模型
Animate Anyone 2 – 阿里通义推出的高保真角色图像动画生成技术
高德开源SkillClaw:AI Agent技能自动进化框架,实现团队经验零成本复利
Cooragent – 清华 LeapLab 开源的 AI Agent 协作框架
分享
Email 复制链接 打印
Share
上一篇 AlphaEvolve – 谷歌 DeepMind 推出的通用科学AI Agent
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

AlphaEvolve – 谷歌 DeepMind 推出的通用科学AI Agent
AIGC 资讯
Second Me – 心识宇宙开源的 AI 身份模型
AIGC 资讯
Phi-4-Mini – 微软推出专注于文本任务的小型语言模型
AIGC 资讯
Matrix3D – 南大联合Apple、港科大推出的统一摄影测量模型
AIGC 资讯

相关推荐

AIGC 资讯

Instella – AMD开源的30亿参数系列语言模型

站外新闻
AI 工具AIGC 资讯

OpenAI重磅开源隐私过滤模型:本地运行、支持128K长文本的PII脱敏新方案

站外新闻
openai PII脱敏 数据治理 本地大模型 隐私过滤
AIGC 资讯

Crack Coder – AI技术面试工具,提供实时编程问题支持

站外新闻
流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

OpenAI广告战略大转向:取消20万美元门槛,ChatGPT全面拥抱中小企业效果广告

站外新闻
chatgpt openai 中小企业 广告业务 效果广告
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.