Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集
AIGC 资讯

Chinese-LiPS – 智源研究院联合南大开源的中文多模态语音识别数据集

站外新闻
最近更新: 2026年6月7日 下午8:03
SHARE

Chinese-LiPS是什么

Chinese-LiPS 是智源研究院联合南开大学共同打造的高质量中文多模态语音识别数据集,包含100小时的语音、视频和手动转录文本,创新性地融合了唇读视频和演讲者的幻灯片内容。幻灯片由领域专家精心设计,确保了视觉图像的高质量和丰富性。数据集通过结合唇读和幻灯片信息,提升了语音识别性能,实验表明,唇读信息和幻灯片信息分别可提升ASR性能约8%和25%,两者结合可提升约35%。面向中文讲解、科普、教学、知识传播等复杂语境。

阅读目录
  • Chinese-LiPS是什么
  • Chinese-LiPS的主要功能
  • Chinese-LiPS的技术原理
  • Chinese-LiPS的项目地址
  • Chinese-LiPS的应用场景

Chinese-LiPS

Chinese-LiPS的主要功能

  • 提升语音识别性能:数据集通过融合唇读信息和幻灯片语义信息,显著提升了语音识别系统的性能。实验结果显示,唇读信息可使字符错误率降低约8%,幻灯片信息可降低约25%,两者结合则可降低约35%。
  • 减少错误类型:唇读信息在减少删除错误方面发挥了重要作用,能捕捉到与发音相关的细节,有效补充语音识别中容易缺失的部分,如填充词、因犹豫而未完整表达的语音片段等。幻灯片信息则显著降低了替换错误,丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,为模型提供关键的识别线索。
  • 提供高质量多模态数据:作为一个高质量的多模态中文语音识别数据集,包含100小时的语音、视频和相应的手动转录,涵盖了唇读视频和演讲者的幻灯片,使音频视觉语音识别任务得到了更全面的探索。

Chinese-LiPS的技术原理

  • 多模态数据融合:数据集将语音、唇读信息、通过OCR技术从幻灯片提取的文本以及从图像和图形内容中获取的语义信息进行融合。多模态信息的结合,为语音识别模型提供了更丰富的上下文和线索,显著提升了识别的准确性和鲁棒性。
  • 唇读信息的作用:唇读能捕捉到与发音相关的细节,如填充词、因犹豫而未完整表达的语音片段等容易在语音识别中缺失的部分,借助唇读信息可有效补充,减少删除错误。
  • 幻灯片信息的作用:幻灯片中包含丰富的语义和上下文信息,在面对专业词汇、地名等具有特定领域属性的词汇识别时,能为模型提供关键的识别线索,大幅降低替换错误。

Chinese-LiPS的项目地址

  • 项目官网:https://data.baai.ac.cn/datadetail/Chinese-LiPS
  • Github仓库:https://github.com/flageval-baai/Chinese-LiPS
  • HuggingFace模型库:https://huggingface.co/datasets/BAAI/Chinese-LiPS
  • arXiv技术论文:https://arxiv.org/pdf/2504.15066

Chinese-LiPS的应用场景

  • 虚拟教师:数据集能帮助制作互动式语言学习材料,使虚拟教师的讲解更生动。通过融合唇读信息和幻灯片语义信息,虚拟教师可以更自然地呈现教学内容,提高教学效果。
  • 智能辅导:在智能辅导系统中,基于多模态语音识别技术,能更准确地理解学生的问题和需求,提供更个性化的辅导方案。
  • 博物馆、展览馆讲解:在博物馆、展览馆等场所,虚拟讲解人可以用数据集提供的多模态信息,更生动、准确地介绍展品和展览内容,提升观众的参观体验。
  • 企业产品介绍:企业可以用数据集制作虚拟讲解人,用于产品介绍、培训等场景,提高信息传递的效率和准确性。
​腾讯与人大高瓴联合推出开源规划评测框架 PlanningBench
PokeClaw:全球首个全本地离线手机AI Agent,基于Gemma 4开源免费,隐私安全自动化新标杆
YC总裁亲测开源GBrain:打造AI Agent永生记忆,万级文件知识图谱实战解析
SkyReels-V2 – 昆仑万维开源的无限时长电影生成模型
小红书开源OpenStoryline:首个具备导演思维的视频剪辑Agent,自然语言对话实现全流程AI创作
分享
Email 复制链接 打印
Share
上一篇 Inf-DiT – 清华联合智谱 AI 推出的超高分辨率图像生成模型
下一篇 FaceLift – Adobe 联合加州大学推出的单张图像到 3D 头部模型生成技术
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

流光脑波AI大脑占位特色图
2026年3月美国AI榜单巨变:Claude单月狂飙130%紧追ChatGPT,格局突变信号已现
AIGC 资讯 最新趋势
得物实战揭秘:AI Coding工具如何突破数仓开发’失忆’痛点,Harness工程引领新范式
AI 工具 AIGC 资讯
全息流体渐变通用占位特色图
历史性和解!Meta妥协规避审判,美国首例学校诉社交媒体成瘾案落幕,揭示行业司法风向
AIGC 资讯
量子芯片科技感占位特色图
Spotify与环球音乐联手:AI翻唱混音工具上线,正版版权终结Suno野蛮生长
AI 工具 AIGC 资讯 最新趋势

相关推荐

AI 工具AIGC 资讯

通义千问「拍照问健康」重大升级:AI圈图识异常、智能推理获三甲专家实测认可

站外新闻
AIGC AI健康助手 医学图像识别 通义千问
AIGC 资讯

AuraFusion360 – 三维场景修复技术,实现高质量物体去除和孔洞填充

站外新闻
AIGC 资讯

MineWorld – 微软研究院开源的实时交互式世界模型

站外新闻
AIGC 资讯

AnythingLLM – 开源的全栈 AI 客户端,支持本地部署和API集成

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 知识管理 美团 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 轻量级模型 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.