Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型
AIGC 资讯

LiveCC – 字节联合新加坡国立大学开源的实时视频解说模型

站外新闻
最近更新: 2026年6月8日 下午5:14
SHARE

LiveCC是什么

LiveCC 是新加坡国立大学Show Lab 团队联合字节跳动推出的实时视频解说模型,基于自动语音识别(ASR)字幕进行大规模训练。LiveCC像专业解说员一样快速分析视频内容,同步生成自然流畅的语音或文字解说。LiveCC 推出 Live-CC-5M 数据集用在预训练,和 Live-WhisperX-526K 数据集用在高质量的监督微调。LiveCC 设计了 LiveSports-3K 基准测试,用在评估模型的实时视频评论能力。实验表明,LiveCC 在实时视频评论和视频问答任务上表现出色,展现出低延迟和高质量的生成能力。

阅读目录
  • LiveCC是什么
  • LiveCC的主要功能
  • LiveCC的技术原理
  • LiveCC的项目地址
  • LiveCC的应用场景

LiveCC

LiveCC的主要功能

  • 实时视频评论:根据视频内容生成连续的、与人类类似的实时评论,适用于体育赛事、新闻播报、教学视频等多种场景。
  • 视频问答:回答与视频内容相关的问题,帮助用户更好地理解视频中的事件和细节。
  • 低延迟处理:用极低的延迟(每帧小于0.5秒)处理视频流,支持实时应用。
  • 多场景适应:适用于多种视频类型,包括体育、新闻、教育、娱乐等。

LiveCC的技术原理

  • 流式训练方法:将自动语音识别(ASR)的单词与视频帧按照时间戳密集交错,让模型学习到时间对齐的视觉-语言关系。模拟人类观看视频时的实时感知过程,让模型生成与视频内容紧密相关的评论。
  • 大规模数据集:从YouTube视频中提取的ASR字幕构建两个数据集:Live-CC-5M(用在预训练)和Live-WhisperX-526K(用在高质量监督微调)。数据集为模型提供丰富的训练素材。
  • 模型架构:基于Qwen2-VL模型架构,结合视觉编码器和语言模型,处理视频帧和文本信息。模型基于自回归的方式预测文本令牌,将视频令牌作为非预测输入。
  • 实时推理:在推理阶段,LiveCC模型逐帧处理输入视频,生成实时评论。为提高效率,模型缓存之前的提示、视觉帧和生成的文本,加速语言解码。
  • 评估方法:基于LiveSports-3K基准测试评估模型的实时评论能力,用LLM-as-a-judge框架比较不同模型生成的评论质量。

LiveCC的项目地址

  • 项目官网:https://showlab.github.io/livecc/
  • GitHub仓库:https://github.com/showlab/livecc
  • HuggingFace模型库:https://huggingface.co/collections/chenjoya/livecc
  • arXiv技术论文:https://arxiv.org/pdf/2504.16030
  • 在线体验Demo:https://huggingface.co/spaces/chenjoya/LiveCC

LiveCC的应用场景

  • 体育赛事:提供实时评论和赛事分析,增强观众体验。
  • 新闻报道:辅助实时新闻解读,提升报道的深度和专业性。
  • 教育领域:为教学视频生成讲解,辅助技能培训。
  • 娱乐媒体:为影视内容提供实时剧情解读,增加互动性。
  • 智能助手:结合视频内容提供实时信息,提升交互体验。
Sketch2Anim – 爱丁堡大学等机构推出的2D草图转3D动画框架
8个月估值暴增150亿!AI独角兽Cognition融资10亿美元背后:Devin如何重塑万亿软件开发市场
LaWGPT – 南京大学推出的中文法律大语言模型
LLaVA-Rad – 微软推出的小型多模态模型,专注于临床放射学报告生成
字节跳动MAGREF横空出世:单图+文本一键生成多主体视频,AI视频生成迎来新范式
分享
Email 复制链接 打印
Share
上一篇 AlphaEvolve – 谷歌 DeepMind 推出的通用科学AI Agent
下一篇 AutoMouser – AI Chrome扩展程序,实时交互跟踪自动生成测试代码
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

字节跳动发布SeedVR2:单步视频修复模型,以极低成本实现1080p高清画质革新
AI 工具 AIGC 资讯
北大微软联手突破:Next-Frame Diffusion实现30+FPS实时自回归视频生成,扩散模型与因果注意力新范式
AI 工具 AIGC 资讯
美团LLIA框架深度解析:实时音频驱动肖像视频生成,如何实现低延迟高保真交互?
AI 工具 AIGC 资讯
腾讯开源Hunyuan3D-2.1:工业级3D生成模型,支持PBR材质与多模态输入,1秒极速出图
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯最新趋势

机器人告别逐帧学动作!全球首个事件级具身智能世界模型WALL-WM重磅发布

站外新闻
VLA模型 世界模型 事件级预测 具身智能 自变量机器人
AIGC 资讯

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

站外新闻
AI 工具AIGC 资讯

阿里通义MAI-UI开源:全尺寸GUI智能体基座模型,2B-235B参数,登顶权威评测引领人机交互变革

站外新闻
GUI智能体 人机交互 端云协同 通义实验室
AIGC 资讯

DynamicFace – 小红书联合上海交大等推出的视频换脸技术

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.