Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阶跃星辰StepAudio 2.5 ASR发布:500 TPS极速推理与30分钟长音频端到端转写,定义语音识别新SOTA
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阶跃星辰StepAudio 2.5 ASR发布:500 TPS极速推理与30分钟长音频端到端转写,定义语音识别新SOTA
AI 工具AIGC 资讯

阶跃星辰StepAudio 2.5 ASR发布:500 TPS极速推理与30分钟长音频端到端转写,定义语音识别新SOTA

站外新闻
最近更新: 2026年5月24日 上午2:29
ASR 大语言模型 自动语音识别 语音转写 阶跃星辰
SHARE

💡 站外导读:在会议纪要、访谈转写和内容归档场景中,传统语音识别方案常面临长音频处理需切片导致上下文断裂、转写速度慢、成本高昂等痛点。随着AI大模型技术的融合,业界正追求更高效、精准且成本可控的端到端语音识别方案。阶跃星辰发布的StepAudio 2.5 ASR模型,正是针对这些行业核心挑战,旨在重新定义语音识别的技术边界与应用体验。

StepAudio 2.5 ASR是什么

StepAudio 2.5 ASR 是阶跃星辰推出的新一代自动语音识别模型,专为语音转写、会议纪要与长音频处理设计。模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 架构,将多Token预测技术首次引入语音识别领域,实现500 TPS极速推理。模型支持OGG、mp3、wav、PCM等格式输入,复用32K上下文窗口,单次可端到端转写30分钟音频,彻底告别传统切片方案导致的上下文断裂问题,在速度与精度上达到业内SOTA水准。

阅读目录
  • StepAudio 2.5 ASR是什么
  • StepAudio 2.5 ASR的主要功能
  • StepAudio 2.5 ASR的技术原理
  • 如何使用StepAudio 2.5 ASR
  • StepAudio 2.5 ASR的关键信息和使用要求
  • StepAudio 2.5 ASR的核心优势
  • StepAudio 2.5 ASR的项目地址
  • StepAudio 2.5 ASR的同类竞品对比
  • StepAudio 2.5 ASR的应用场景
      • 📝 站长洞察 (Editor’s Insight)

StepAudio 2.5 ASR

StepAudio 2.5 ASR的主要功能

  • 极速语音转写:模型推理峰值达500 tokens/s,5分钟音视频秒级完成转写。
  • 长音频端到端识别:复用32K上下文窗口,单次完整转写30分钟音频。
  • 多格式音频支持:兼容OGG、mp3、wav、PCM等常见音频格式。
  • 中英文及方言识别:覆盖中英主流语种,支持方言、带口音普通话及少量日语、阿拉伯语。
  • 高吞吐解码:基于MTP-5架构,吞吐量提升400%,推理成本降低80%。

StepAudio 2.5 ASR的技术原理

  • 整体架构设计:模型采用 Audio Encoder + Linear Adapter + 4B LLM + MTP-5 四层堆叠架构,兼顾音频表征提取、维度对齐、语言建模与高吞吐解码。
  • 音频编码层:0.6B Transformer 音频编码器将输入音频转化为 12.5 Hz 的 audio embedding,完成原始声学信号到语义向量的初步映射。
  • 维度对齐层:Linear Adapter 负责将音频编码器输出与 LLM 隐藏维度对齐,实现跨模态特征空间的桥接与适配。
  • 语言建模主干:4B 参数 LLM 作为模型核心,承担上下文理解与自回归文本生成任务,复用原生 32K 上下文窗口实现长音频端到端建模。
  • MTP 多 Token 预测:引入 Step 3.5 Flash 同款 MTP-5 模块,单次前向传播可额外并行预测 5 个候选 token,突破传统 ASR 逐 token 顺序生成的速度瓶颈。

如何使用StepAudio 2.5 ASR

  • 在线体验:访问阶跃星辰体验中心 https://www.stepfun.com/studio/audio?tab=speech-recognition,上传音频进行在线转写。
  • API接入:前往阶跃星辰开放平台 https://platform.stepfun.com/docs/zh/guides/models/stepaudio-2.5-asr 或 Step Plan 官网 https://platform.stepfun.com/docs/zh/step-plan/integrations/audio-api ,查看API文档,获取模型标识与示例代码。
  • Demo页面:访问Demo页面 https://stepaudiollm.github.io/step-audio-2.5-asr/ ,查看公开示例与效果展示。
  • 开发者接入:通过程序化调用ASR API,将识别结果接入检索、摘要、质检或归档链路。

StepAudio 2.5 ASR的关键信息和使用要求

  • 发布主体:由阶跃星辰(StepFun)正式发布,已全量上线阶跃星辰开放平台与 Step Plan。
  • 模型架构:采用 Audio Encoder(0.6B)+ Linear Adapter + 4B LLM + MTP-5 四层架构,整体参数规模约 4.6B。
  • 推理性能:峰值达 500 tokens/s,吞吐量提升 400%,时延降低 60%,推理成本直降 80%。
  • 上下文能力:复用 LLM 原生 32K 上下文窗口,单次可端到端完整转写最长 30 分钟音频,无需切片拼接。
  • 支持格式:OGG、mp3、wav、PCM 等常见音频格式。
  • 语言覆盖:中英文为主,支持方言、带口音普通话,以及少量日语和阿拉伯语。
  • 评测成绩:在中文(AISHELL、Wenet、FLEURS-zh)、英文(LibriSpeech、Common Voice、VoxPopuli)及长音频多项权威基准上均达 SOTA 水平。
  • 训练数据:预训练使用千万小时量级语音音频数据;ASR 专项训练包含 10 万小时高质量短音频(最长 30 秒)与 5 万小时长音频(最长 30 分钟)。
  • 接入渠道:开发者可通过阶跃星辰开放平台 API 或 Step Plan 集成;普通用户可前往体验中心在线试用,或访问 Demo Page 查看效果展示。

StepAudio 2.5 ASR的核心优势

  • 速度突破:率先将大语言模型推理加速技术引入语音识别领域,推理峰值达 500 tokens/s,吞吐量提升 400%。
  • 成本优势:推理时延降低 60%,推理成本直降 80%,以更低算力实现更高转写上限。
  • 精度领先:在中文、英文及长音频多项权威评测基准上均达 SOTA 水平,综合错误率行业最低。
  • 长文稳定:复用 32K 原生上下文窗口,单次端到端转写 30 分钟音频,精度无衰减,彻底告别切片拼接导致的上下文断裂。
  • 架构创新:基于 ASR+MTP-5 深度融合架构,通过多 Token 并行预测与验证机制突破传统逐 token 自回归生成的速度瓶颈。
  • 场景覆盖:支持 OGG、mp3、wav、PCM 等多格式输入,覆盖中英主流语种及方言、带口音普通话等复杂声学场景。

StepAudio 2.5 ASR的项目地址

  • 技术论文:https://stepaudiollm.github.io/step-audio-2.5-asr/model-card/
  • 在线体验Demo:https://stepaudiollm.github.io/step-audio-2.5-asr/

StepAudio 2.5 ASR的同类竞品对比

对比维度 StepAudio 2.5 ASR Qwen3 ASR Doubao-ASR-2603
模型架构 Audio Encoder+4B LLM+MTP-5 未公开 未公开
推理速度 500 TPS,吞吐量提升400% 标准自回归 标准自回归
中文平均CER 2.97% 3.17% 3.34%
英文平均WER 3.68% 3.85% 6.67%
长音频WER 3.70% 4.20% 6.11%
最大上下文 32K(30分钟端到端) 未明确 未明确
成本优化 推理成本降低80% 无 无

StepAudio 2.5 ASR的应用场景

  • 会议纪要与访谈转写:端到端转写长时段会议、访谈录音,保持术语一致性与上下文连贯,无需切片拼接。
  • 字幕生成与媒资预处理:快速生成视频字幕,支持 OGG、mp3、wav、PCM 等多格式音频批量处理。
  • 长音频内容归档:适用于播客、讲座、庭审等 30 分钟级音频的完整转写与检索入库。
  • 实时语音质检:凭借低时延与高吞吐特性,适用于客服通话质检与内容合规审查场景。
  • 后端系统接入:识别结果可直接接入检索、摘要、质检或归档链路,满足工业级术语一致性与稳定性要求。

📝 站长洞察 (Editor’s Insight)

StepAudio 2.5 ASR的发布,标志着大语言模型(LLM)的推理加速技术正系统性地重塑传统语音识别(ASR)赛道。其核心亮点不仅在于高达500 TPS的峰值速度,更在于通过MTP-5多Token预测架构,从算法层面突破了自回归生成的速度瓶颈,这为整个AIGC工具链的实时化、低成本化提供了范式参考。从行业趋势看,将LLM的强大语言建模能力与专用音频编码器结合,是解决长程依赖、上下文连贯性问题的最优路径之一。阶跃星辰此举,直接将ASR的“战场”从简单的短句转写,拉升至30分钟级长音频的端到端处理能力,这将对会议、客服质检、媒资管理等工业级应用产生深远影响。其显著的推理成本降幅,也预示着高质量AI语音服务的普惠化加速。这不仅是单一模型的升级,更是‘LLM+X’多模态融合架构在垂直领域成功落地的又一力证。

字节跳动Seeduplex全双工语音模型上线:边听边说、误打断率降50%,豆包App亿级用户体验实时AI对话
OLMo 2 32B – Ai2 推出的最新开源语言模型
马斯克千亿资本腾挪:SpaceX低息贷款置换高息债,年省10亿美元利息
蚂蚁灵波科技开源LingBot-World:交互式世界模型,实时生成近10分钟连续视频,赋能机器人训练与自动驾驶仿真
阿里云与共青团无锡市委携手:AI加速计划发布,破解青年创客技术变现双难题
TAGGED:ASR大语言模型自动语音识别语音转写阶跃星辰
分享
Email 复制链接 打印
Share
上一篇 中国首个1.58-bit三值大模型BitCPM-CANN开源发布:显存降6倍,8B模型可跑在手机上
下一篇 量子芯片科技感占位特色图 xAI重磅发布Grok V9-Medium:1.5万亿参数专攻编程,Blackwell架构深度优化,剑指AI代码助手新霸主
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

阿里通义重磅开源Qwen3-VL-Reranker:跨模态检索精度飙升,多模态AI应用新引擎
AI 工具 AIGC 资讯
香港大学开源DeepTutor:基于知识图谱的AI学习助手,多智能体架构助你高效构建个人知识库
AI 工具
英伟达重磅开源Nemotron Speech ASR:实时语音识别延迟低至24ms,游戏翻译会议全搞定
AI 工具 AIGC 资讯
高德地图x北邮发布FantasyWorld:统一视频与3D建模框架,赋能AR/VR与机器人导航新纪元
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

Cua – 专为 MacOS 推出的开源 AI Agent项目

站外新闻
AIGC 资讯

GEN3C – NVIDIA 联合多伦多大学等推出的生成式视频模型

站外新闻
AI 工具AIGC 资讯

Mistral Small 4 开源发布:统一推理、多模态与编码的全能模型,性能飙升成本骤降

站外新闻
AI Agent Mistral Small 4 企业级AI 多模态大模型 开源大模型
AIGC 资讯

Nanobrowser – AI网页自动化工具,自主完成复杂的网页任务

站外新闻
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频 AI视频生成 AI设计 AI音乐生成 Anthropic chatgpt Claude Claude Code Claude Mythos Claude Opus 4.8 DeepSeek Gemini GPT-5.4 GPT-5.5 MCP协议 Midjourney MiniMax Mistral AI MoE MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 具身智能 命令行工具 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型API 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI工具 开源大模型 开源工具 开源框架 开源模型 开源项目 强化学习 微软 教程 早报 昆仑万维 智能体编程 智谱AI 月之暗面 本地AI 海报设计 清华大学 生成式AI 知识管理 科大讯飞 科幻 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 赛博朋克 边缘计算 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.