Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
AIGC 资讯

Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

Chinese-LiPS是什么

Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。

阅读目录
  • Chinese-LiPS是什么
  • Chinese-LiPS的主要功能
  • Chinese-LiPS的技术原理
  • Chinese-LiPS的项目地址
  • Chinese-LiPS的应用场景

Chinese-LiPS

Chinese-LiPS的主要功能

  • 提升语音识别性能:数据集通过融合唇读信息和幻灯片语义信息,显著提升了语音识别系统的性能。实验结果显示,唇读信息可使字符错误率降低约8%,幻灯片信息可降低约25%,两者结合则可降低约35%。
  • 减少错误类型:唇读信息在减少删除错误方面发挥了重要作用,能捕捉到与发音相关的细节,有效补充语音识别中容易缺失的部分,如填充词、因犹豫而未完整表达的语音片段等。幻灯片信息则显著降低了替换错误,丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,为模型提供关键的识别线索。
  • 提供高质量多模态数据:作为一个高质量的多模态中文语音识别数据集,包含100小时的语音、视频和相应的手动转录,涵盖了唇读视频和演讲者的幻灯片,使音频视觉语音识别任务得到了更全面的探索。

Chinese-LiPS的技术原理

  • 多模态数据融合:数据集将语音、唇读信息、通过OCR技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合。多模态信息的结合,为语音识别模型提供了更丰富的上下文和线索,显著提升了识别的准确性和鲁棒性。
  • 唇读信息的作用:唇读能捕捉到与发音相关的细节,如填充词、因犹豫而未完整表达的语音片段等容易在语音识别中缺失的部分,借助唇读信息可有效补充,减少删除错误。
  • 幻灯片信息的作用:幻灯片中包含丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,能为模型提供关键的识别线索,大幅降低替换错误。

Chinese-LiPS的项目地址

  • 项目官网:https://data.baai.ac.cn/datadetail/Chinese-LiPS
  • Github仓库:https://github.com/flageval-baai/Chinese-LiPS
  • HuggingFace模型库:https://huggingface.co/datasets/BAAI/Chinese-LiPS
  • arXiv技术论文:https://arxiv.org/pdf/2504.15066

Chinese-LiPS的应用场景

  • 虚拟教师:数据集能帮助制作互动式语言学习材料,使虚拟教师的讲解更生动。通过融合唇读信息和幻灯片语义信息,虚拟教师可以更自然地呈现教学内容,提高教学效果。
  • 智能辅导:在智能辅导系统中,基于多模态语音识别技术,能更准确地理解学生的问题和需求,提供更个性化的辅导方案。
  • 博物馆、展览馆讲解:在博物馆、展览馆等场所,虚拟讲解人可以用数据集提供的多模态信息,更生动、准确地介绍展品和展览内容,提升观众的参观体验。
  • 企业产品介绍:企业可以用数据集制作虚拟讲解人,用于产品介绍、培训等场景,提高信息传递的效率和准确性。
融光AI Fusion Video:开源全流程AI视频创作平台,Agent架构自动分镜到成片,多模型支持Docker一键部署
字节跳动Seeduplex全双工语音模型上线:边听边说、误打断率降50%,豆包App亿级用户体验实时AI对话
VITRON – Skywork AI 联合新加坡国立、南洋理工推出的像素级视觉大型语言模型
EvoMap:全球首个AI Agent进化协作平台,破解经验孤岛,实现智能体能力跨个体遗传与进化
国产大模型掀起新一轮上市潮,阶跃星辰冲刺香港近年来最大AI IPO
分享
Email 复制链接 打印
Share
上一篇 Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型
下一篇 FaceLift – Adobe 联合加州大学推出的单张图像到 3D 头部模型生成技术
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

京东开源JoyAI-LLM-Flash:48B参数MoE架构,3B激活参数实现128K超长上下文与高效推理
AI 工具 AIGC 资讯
蚂蚁集团Ming-omni-tts重磅开源:16.8B参数统一音频生成大模型,粤语情感控制超93%,超越SeedTTS引领AIGC音频新范式
AI 工具 AIGC 资讯
ClawWork深度解析:HKUDS开源AI Agent经济生存基准测试框架,挑战大模型“赚钱”能力
AI 工具 最新趋势
Google DeepMind发布Lyria 3:AI音乐生成模型重大突破,一句话生成带人声的30秒完整歌曲
AI 工具 AIGC 资讯

相关推荐

AI 工具AIGC 资讯

字节跳动Seed3D 2.0发布:单图生成生产级3D资产,几何精度与PBR材质双SOTA

站外新闻
3D生成大模型 AIGC PBR材质 Seed3D 2.0 字节跳动
AIGC 资讯

Qlib – 微软开源的金融 AI 量化投资工具

站外新闻
AIGC 资讯

腾讯云发布音视频 AI 品牌 WAND:内置六大自研模型与60+项AI能力

站外新闻
AIGC 资讯

VideoRAG – 用于长视频理解的检索增强生成技术

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE架构 NVIDIA openai OpenClaw OpenRouter Pika prompt stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 小红书 展台 建筑 开源 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 科幻 端侧AI 网络安全 联想 腾讯 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.