Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型
AIGC 资讯

Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型

站外新闻
最近更新: 2026年6月8日 上午2:59
SHARE

Parakeet TDT 0.6B是什么

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算开销。模型在1秒内可转录60分钟音频,实时因子(RTFx)达3386,平均单词错误率(WER)仅为6.05%,在LibriSpeech-clean数据集上WER低至1.69%,位居Hugging Face Open ASR Leaderboard榜首。

阅读目录
  • Parakeet TDT 0.6B是什么
  • Parakeet TDT 0.6B的主要功能
  • Parakeet TDT 0.6B的技术原理
  • Parakeet TDT 0.6B的项目地址
  • Parakeet TDT 0.6B的应用场景

Parakeet TDT 0.6B

Parakeet TDT 0.6B的主要功能

  • 极速转录:能在1秒内处理60分钟音频,速度是现有主流开源ASR模型的50倍。
  • 高精度转录:在Hugging Face的Open ASR Leaderboard上,其字错率(WER)低至6.05%,位居开源模型前列。
  • 歌词转录:开创性地支持歌曲转歌词转录功能,适用于音乐和媒体领域。
  • 文本格式化:支持数字和时间戳格式化,提升会议记录、法律转录和医疗记录的可读性。
  • 标点恢复:能够自动生成标点符号和大小写格式,便于阅读和进一步的自然语言处理。
  • 实时因子高:依托英伟达的TensorRT和FP8量化技术,其实时率(RTF)高达3386。

Parakeet TDT 0.6B的技术原理

  • 编码器:采用 FastConformer 架构,融合了 Transformer 的全局注意力机制与卷积网络的局部建模能力,能高效处理长语音。
  • 解码器:使用 TDT(Transducer Decoder Transformer)架构,结合了传统 Transducer 在流式语音识别中的高效性和 Transformer 在语言理解中的优势。
  • 整体结构:模型为 6 亿参数的编码-解码结构,支持量化和融合内核以提升推理效率。
  • 训练数据:基于名为 Granary 的多源语音语料库进行训练,包含约 12 万小时的英语音频,其中包括 1 万小时人工标注数据和 11 万小时高质量伪标签语音。
  • 推理优化:针对英伟达硬件进行了优化,结合 TensorRT 和 FP8 量化技术,实现了极致加速,实时率(RTF)达到 3386。

Parakeet TDT 0.6B的项目地址

  • HuggingFace模型库:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

Parakeet TDT 0.6B的应用场景

  • 呼叫中心:实时转录客户对话,生成工单摘要,提升客服效率。
  • 会议记录:自动生成带时间戳的会议纪要,方便与会者快速回顾和整理。
  • 法律和医疗记录:准确转录法律案件和医疗记录,提高文档的可读性和准确性。
  • 字幕生成:为视频内容快速添加字幕,提升观众体验。
  • 音乐索引:将歌曲内容转录为歌词,适用于音乐和媒体平台,拓展了音乐内容的索引和分析。
  • 教育科技:支持语言学习应用的发音评估功能,帮助学生更好地学习语言。
美团LongCat发布UNO-Bench:首个验证全模态大模型‘组合定律’的评测基准,引领AI评估新范式
Chatlog – 开源AI聊天记录分析工具,自动解析、可视化和挖掘聊天记录
GPT-5-Codex深度解析:OpenAI Agent编程模型实现7小时独立编码,代码审查错误率仅4.4%
DeepSeek-Prover-V2 – DeepSeek推出的开源数学推理大模型
OpenEMMA – 德克萨斯联合多伦多等大学开源的端到端自动驾驶多模态模型
分享
Email 复制链接 打印
Share
上一篇 PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景
下一篇 Miras – 谷歌推出的深度学习架构设计通用框架
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Ring-lite:仅2.75B激活参数,蚂蚁技术开源轻量级推理模型刷新SOTA
AI 工具 AIGC 资讯
港科大、美团联手发布PosterCraft:告别模板,用AI生成高美学海报的统一框架
AI 工具 AIGC 资讯
网易有道开源数学推理模型子曰3:140亿参数,成本仅为通用模型十分之一,GAOKAO-Bench得分98.5
AI 工具 AIGC 资讯
微软Mu模型发布:仅3.3亿参数,性能媲美Phi3.5,如何革新边缘AI体验?
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

美团GEO营销门户 – 美团推出的生成式引擎优化平台

站外新闻
AI 工具AIGC 资讯

腾讯混元开源AngelSlim:全模态大模型压缩工具包,推理加速最高1.9倍

站外新闻
AIGC 大模型压缩 开源工具 推理加速 腾讯混元
AI 工具AIGC 资讯

清华微软联手开源Kronos:全球首个金融K线图基础模型,预测精度碾压传统方法

站外新闻
Kronos K线图基础模型 微软亚洲研究院 时间序列预测 清华大学
AIGC 资讯

Multi-SWE-bench – 字节豆包开源的多语言代码修复基准

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax MoE架构 MoE模型 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 清华大学 知识管理 科大讯飞 端侧AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.