阶跃星辰开源全球首个LLM级音频编辑大模型 Step-Audio-EditX：三轴细粒度情感、风格、副语言控制，支持零样本TTS

💡 站外导读：在AIGC浪潮席卷下，语音合成正从“能用”走向“好用”。传统TTS要么音色单一，要么情感表达生硬，更无法精细编辑情绪与风格。内容创作者与开发者面临配音成本高、迭代周期长、个性化缺失的痛点。Step-Audio-EditX的开源，首次将大语言模型（LLM）能力引入音频编辑，通过双码本分词与大间隔合成数据驱动，实现了情感、风格、副语言三轴的细粒度迭代控制，为有声书、短视频、游戏NPC、智能客服等场景打开了低成本、高可控的音频生成新范式。

Step-Audio-EditX是什么

Step-Audio-EditX 是阶跃星辰开源的全球首个 LLM 级音频编辑大模型，主打“情感、说话风格、副语言”三轴细粒度迭代控制，可把愤怒、开心、悲伤等情绪强度任意增减，能把撒娇、耳语、老人等风格叠加多次，能像字幕一样插入呼吸、笑声、叹气等 10 类自然副语言 token。自带零样本 TTS，无需目标人语音即可克隆音色，在文本前加“[四川话]”“[粤语]”等标签秒切方言。模型完全基于大间隔合成数据做 SFT+PPO，后训练阶段无需额外编码器或 adapter 能实现属性解耦与迭代控制。

阅读目录

Step-Audio-EditX是什么
Step-Audio-EditX的主要功能
Step-Audio-EditX的技术原理
Step-Audio-EditX的项目地址
Step-Audio-EditX的应用场景

📝 站长洞察 (Editor’s Insight)

Step-Audio-EditX

Step-Audio-EditX的主要功能

情感编辑：愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等几十种标签，可多次迭代增强或减弱强度。
风格编辑：撒娇、耳语、老人、小孩、严肃、慷慨、夸张等十余种说话风格，支持叠加与微调。
副语言插入：精确插入呼吸、笑声、叹气、惊讶（oh/ah）、确认（en）、不满（hnn）、疑问（ei）、嗯（uhm）等 10 类自然 token。
零样本 TTS：无需目标人语音即可克隆音色，文本前加“[四川话]”“[粤语]”等标签直接切换方言。
迭代控制：同一语音可反复编辑，属性解耦不串扰，效果逐级增强。
开源轻量：提供 8bit 量化版，单卡 8 GB 显存可跑，4×A800/H800 获最佳音质；含推理/训练代码、Gradio Demo、HF Space。

Step-Audio-EditX的技术原理

双码本音频分词：并行 16.7 Hz/1024 项“语言码本”与 25 Hz/4096 项“语义码本”，按 2:3 交错切片，把任意语音统一转成离散 token，保留情感与韵律信息，为后续 LLM 直接操作提供“语音词汇”。
3B 音频 LLM：以文本预训练 3B 模型热启，文本 token 与双码本音频 token 按聊天格式拼接输入，仅输出音频 token；训练数据文本:音频=1:1，充分利用已有文本 LLM 生态做后训练。
大间隔合成数据驱动：不引入额外编码器或 adapter，仅用“同文本、异属性（情感/风格/副语言）”成对数据做 SFT+PPO；大间隔迫使模型学会属性解耦，实现迭代式强度增减与多属性叠加。
流匹配 + BigVGANv2 解码：音频 LLM 输出的双码本 token 经 DiT-流匹配模块生成 Mel 谱，再由 BigVGANv2 声码器还原波形；200 k 小时高质量训练保证发音准确度与音色相似度。
统一框架：同一套“分词→LLM→解码”管线同时支持零样本 TTS、情感/风格/副语言编辑、语速调节与降噪，无需任务专属模块，显著降低系统复杂度与推理成本。

Step-Audio-EditX的项目地址

项目官网：https://stepaudiollm.github.io/step-audio-editx/
Github仓库：https://github.com/stepfun-ai/Step-Audio-EditX
HuggingFace模型库：https://huggingface.co/stepfun-ai/Step-Audio-EditX
arXiv技术论文：https://arxiv.org/pdf/2511.03601

Step-Audio-EditX的应用场景

有声内容升级：有声书、播客、新闻朗读可一键叠加“开心/悲伤/耳语”等情绪或风格，无需重新录音即可快速生成多版本音频，提升沉浸感。
视频与广告配音：短视频、动画、广告片可零样本克隆角色音色，再迭代添加“撒娇、夸张、严肃”等风格，实现低成本、多角色、多情绪的自动配音。
游戏/虚拟偶像：NPC、虚拟主播、VTuber 先用一句参考语音克隆音色，再实时插入笑声、呼吸、叹气等副语言，打造更鲜活、可持续互动的角色语音。
智能客服与语音助手：客服机器人可在原有 TTS 基础上，通过编辑把“平淡答复”转为“热情/安抚”情绪，改善用户体验；同时支持方言标签，满足地域化服务。
教育/语言学习：在线课程、语言 APP 利用“老人/小孩/耳语”风格生成适龄读音，或把标准普通话秒切粤语、四川话，帮助学生跟读模仿，降低教师录音成本。
会议记录与无障碍：对含噪声或过长停顿的会议录音，先进行“降噪+静音修剪”编辑，再按需求提高语速或加入情感，生成清晰、易读的会议纪要音频。

📝 站长洞察 (Editor’s Insight)

Step-Audio-EditX的发布标志着AIGC音频进入“可编辑LLM”时代。过去，TTS模型多为端到端黑盒，生成后难以修改；而Step-Audio-EditX将语音视为“词汇”，用LLM直接操作离散token，实现了类似文本编辑般的精细调控——这不仅是技术路径的创新，更预示着音频内容生产逻辑的根本转变：从“一次性生成”转向“迭代式创作”。其统一框架同时覆盖零样本克隆、情感编辑、方言切换，大幅降低系统复杂度，契合当前AI应用追求“一体化、轻量化”的趋势。值得关注的是，模型仅用合成数据SFT+PPO，避免了昂贵的真人标注，展示了LLM在垂直领域“以数据驱动解耦”的潜力。未来，随着多模态融合深化，此类“可控生成”能力或将成为AI原生内容创作的基础设施，而开源策略将加速其在商业场景的渗透。

阶跃星辰开源全球首个LLM级音频编辑大模型 Step-Audio-EditX：三轴细粒度情感、风格、副语言控制，支持零样本TTS

Step-Audio-EditX是什么

Step-Audio-EditX的主要功能

Step-Audio-EditX的技术原理

Step-Audio-EditX的项目地址

Step-Audio-EditX的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价取消回复

最近更新

GPT‑5.3 Instant – OpenAI 推出的轻量级对话模型

GPT‑5.4 – OpenAI推出面向专业工作的旗舰AI模型

InternVLA·M1 – 上海AI Lab开源的具身双系统操作大模型

LLaDA2.2-flash – InclusionAI 开源的扩散语言模型

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Step-Audio-EditX是什么

Step-Audio-EditX的主要功能

Step-Audio-EditX的技术原理

Step-Audio-EditX的项目地址

Step-Audio-EditX的应用场景

📝 站长洞察 (Editor’s Insight)

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复