Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型
AIGC 资讯

Parakeet TDT 0.6B – 英伟达开源的自动语音识别模型

站外新闻
最近更新: 2026年6月8日 上午2:59
SHARE

Parakeet TDT 0.6B是什么

Parakeet TDT 0.6B 是英伟达推出的开源自动语音识别(ASR)模型。采用FastConformer编码器和TDT解码器架构,通过预测文本标记及其持续时间加速推理,减少计算开销。模型在1秒内可转录60分钟音频,实时因子(RTFx)达3386,平均单词错误率(WER)仅为6.05%,在LibriSpeech-clean数据集上WER低至1.69%,位居Hugging Face Open ASR Leaderboard榜首。

阅读目录
  • Parakeet TDT 0.6B是什么
  • Parakeet TDT 0.6B的主要功能
  • Parakeet TDT 0.6B的技术原理
  • Parakeet TDT 0.6B的项目地址
  • Parakeet TDT 0.6B的应用场景

Parakeet TDT 0.6B

Parakeet TDT 0.6B的主要功能

  • 极速转录:能在1秒内处理60分钟音频,速度是现有主流开源ASR模型的50倍。
  • 高精度转录:在Hugging Face的Open ASR Leaderboard上,其字错率(WER)低至6.05%,位居开源模型前列。
  • 歌词转录:开创性地支持歌曲转歌词转录功能,适用于音乐和媒体领域。
  • 文本格式化:支持数字和时间戳格式化,提升会议记录、法律转录和医疗记录的可读性。
  • 标点恢复:能够自动生成标点符号和大小写格式,便于阅读和进一步的自然语言处理。
  • 实时因子高:依托英伟达的TensorRT和FP8量化技术,其实时率(RTF)高达3386。

Parakeet TDT 0.6B的技术原理

  • 编码器:采用 FastConformer 架构,融合了 Transformer 的全局注意力机制与卷积网络的局部建模能力,能高效处理长语音。
  • 解码器:使用 TDT(Transducer Decoder Transformer)架构,结合了传统 Transducer 在流式语音识别中的高效性和 Transformer 在语言理解中的优势。
  • 整体结构:模型为 6 亿参数的编码-解码结构,支持量化和融合内核以提升推理效率。
  • 训练数据:基于名为 Granary 的多源语音语料库进行训练,包含约 12 万小时的英语音频,其中包括 1 万小时人工标注数据和 11 万小时高质量伪标签语音。
  • 推理优化:针对英伟达硬件进行了优化,结合 TensorRT 和 FP8 量化技术,实现了极致加速,实时率(RTF)达到 3386。

Parakeet TDT 0.6B的项目地址

  • HuggingFace模型库:https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

Parakeet TDT 0.6B的应用场景

  • 呼叫中心:实时转录客户对话,生成工单摘要,提升客服效率。
  • 会议记录:自动生成带时间戳的会议纪要,方便与会者快速回顾和整理。
  • 法律和医疗记录:准确转录法律案件和医疗记录,提高文档的可读性和准确性。
  • 字幕生成:为视频内容快速添加字幕,提升观众体验。
  • 音乐索引:将歌曲内容转录为歌词,适用于音乐和媒体平台,拓展了音乐内容的索引和分析。
  • 教育科技:支持语言学习应用的发音评估功能,帮助学生更好地学习语言。
OpenAI广告策略180度大转弯:取消20万高门槛,ChatGPT广告全面向小微商家开放
AIGC 行业现状
小米三年豪掷600亿押注AI,自研大模型MiMo-V2.5-Pro全球双料登顶,智能化转型全面提速
Multica开源AI Agent协作平台:让Claude Code、Codex成为你的团队正式成员
OpenAI重磅开源隐私过滤模型:本地运行、支持128K长文本的PII脱敏新方案
分享
Email 复制链接 打印
Share
上一篇 PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

PhysGen3D – 清华等高校联合推出的单图创建交互式 3D 场景
AIGC 资讯
GPT-4.1 – OpenAI 推出新一代语言模型,支持百万 token 上下文
AIGC 资讯
TesserAct – AI 4D具身世界模型,能预测3D场景的动态演变
AIGC 资讯
Graphiti – 开源AI动态知识图谱生成框架
AIGC 资讯

相关推荐

流光脑波AI大脑占位特色图
AIGC 资讯最新趋势

AI生成内容反超人类:互联网一半文章已非人造,我们正面临‘精神断粮’危机

站外新闻
AIGC AI生成内容 Slop 大语言模型 认知退化
AI 工具AIGC 资讯

阿里通义重磅发布PrismAudio:全球首创分解式思维链V2A框架,0.63秒为视频智能配音

站外新闻
AIGC PrismAudio 大模型 视频生成音频 阿里通义
AIGC 资讯

Software Copyright Materials Skill – 开源软著资料生成Skill

站外新闻
AI 工具AIGC 资讯

Step 3.7 Flash 重磅开源发布:198B MoE架构实现400TPS推理,Agent效率与可靠性新时代已至

站外新闻
Agent MoE架构 Step 3.7 Flash 开源模型
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AGI AI AI Agent AIGC AI商业化 AI大模型 AI安全 AI工具 AI搜索 AI智能体 AI生成内容 AI监管 AI绘画 AI编程 AI编程工具 AI编程智能体 AI芯片 AI视频 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek DuckDuckGo Gemini GPT-5.5 MCP协议 meta Midjourney MiniMax MoE MoE架构 NVIDIA openai OpenRouter Pika prompt SpaceX stable diffusion SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多模态 多模态大模型 大模型 大模型API 大模型应用 大语言模型 字节跳动 家居 小米 展台 建筑 开源 开源大模型 开源工具 开源框架 开源模型 强化学习 微软 教程 早报 智能体 智能体编程 智谱AI 月之暗面 本地AI 海报设计 生成式AI 科大讯飞 科幻 端侧AI 端侧大模型 网络安全 联想 腾讯混元 英伟达 苹果 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 长上下文 阶跃星辰 阿里通义 阿里通义千问 风景
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.