Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 阶跃星辰开源全球首个LLM级音频编辑大模型 Step-Audio-EditX:三轴细粒度情感、风格、副语言控制,支持零样本TTS
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AI 工具 > 阶跃星辰开源全球首个LLM级音频编辑大模型 Step-Audio-EditX:三轴细粒度情感、风格、副语言控制,支持零样本TTS
AI 工具

阶跃星辰开源全球首个LLM级音频编辑大模型 Step-Audio-EditX:三轴细粒度情感、风格、副语言控制,支持零样本TTS

站外新闻
最近更新: 2026年6月7日 下午8:13
AIGC 情感编辑 阶跃星辰 零样本TTS 音频大模型
SHARE

💡 站外导读:在AIGC浪潮席卷下,语音合成正从“能用”走向“好用”。传统TTS要么音色单一,要么情感表达生硬,更无法精细编辑情绪与风格。内容创作者与开发者面临配音成本高、迭代周期长、个性化缺失的痛点。Step-Audio-EditX的开源,首次将大语言模型(LLM)能力引入音频编辑,通过双码本分词与大间隔合成数据驱动,实现了情感、风格、副语言三轴的细粒度迭代控制,为有声书、短视频、游戏NPC、智能客服等场景打开了低成本、高可控的音频生成新范式。

Step-Audio-EditX是什么

Step-Audio-EditX 是阶跃星辰开源的全球首个 LLM 级音频编辑大模型,主打“情感、说话风格、副语言”三轴细粒度迭代控制,可把愤怒、开心、悲伤等情绪强度任意增减,能把撒娇、耳语、老人等风格叠加多次,能像字幕一样插入呼吸、笑声、叹气等 10 类自然副语言 token。自带零样本 TTS,无需目标人语音即可克隆音色,在文本前加“[四川话]”“[粤语]”等标签秒切方言。模型完全基于大间隔合成数据做 SFT+PPO,后训练阶段无需额外编码器或 adapter 能实现属性解耦与迭代控制。

阅读目录
  • Step-Audio-EditX是什么
  • Step-Audio-EditX的主要功能
  • Step-Audio-EditX的技术原理
  • Step-Audio-EditX的项目地址
  • Step-Audio-EditX的应用场景
      • 📝 站长洞察 (Editor’s Insight)

Step-Audio-EditX

Step-Audio-EditX的主要功能

  • 情感编辑:愤怒、开心、悲伤、兴奋、恐惧、惊讶、厌恶等几十种标签,可多次迭代增强或减弱强度。
  • 风格编辑:撒娇、耳语、老人、小孩、严肃、慷慨、夸张等十余种说话风格,支持叠加与微调。
  • 副语言插入:精确插入呼吸、笑声、叹气、惊讶(oh/ah)、确认(en)、不满(hnn)、疑问(ei)、嗯(uhm)等 10 类自然 token。
  • 零样本 TTS:无需目标人语音即可克隆音色,文本前加“[四川话]”“[粤语]”等标签直接切换方言。
  • 迭代控制:同一语音可反复编辑,属性解耦不串扰,效果逐级增强。
  • 开源轻量:提供 8bit 量化版,单卡 8 GB 显存可跑,4×A800/H800 获最佳音质;含推理/训练代码、Gradio Demo、HF Space。

Step-Audio-EditX的技术原理

  • 双码本音频分词:并行 16.7 Hz/1024 项“语言码本”与 25 Hz/4096 项“语义码本”,按 2:3 交错切片,把任意语音统一转成离散 token,保留情感与韵律信息,为后续 LLM 直接操作提供“语音词汇”。
  • 3B 音频 LLM:以文本预训练 3B 模型热启,文本 token 与双码本音频 token 按聊天格式拼接输入,仅输出音频 token;训练数据文本:音频=1:1,充分利用已有文本 LLM 生态做后训练。
  • 大间隔合成数据驱动:不引入额外编码器或 adapter,仅用“同文本、异属性(情感/风格/副语言)”成对数据做 SFT+PPO;大间隔迫使模型学会属性解耦,实现迭代式强度增减与多属性叠加。
  • 流匹配 + BigVGANv2 解码:音频 LLM 输出的双码本 token 经 DiT-流匹配模块生成 Mel 谱,再由 BigVGANv2 声码器还原波形;200 k 小时高质量训练保证发音准确度与音色相似度。
  • 统一框架:同一套“分词→LLM→解码”管线同时支持零样本 TTS、情感/风格/副语言编辑、语速调节与降噪,无需任务专属模块,显著降低系统复杂度与推理成本。

Step-Audio-EditX的项目地址

  • 项目官网:https://stepaudiollm.github.io/step-audio-editx/
  • Github仓库:https://github.com/stepfun-ai/Step-Audio-EditX
  • HuggingFace模型库:https://huggingface.co/stepfun-ai/Step-Audio-EditX
  • arXiv技术论文:https://arxiv.org/pdf/2511.03601

Step-Audio-EditX的应用场景

  • 有声内容升级:有声书、播客、新闻朗读可一键叠加“开心/悲伤/耳语”等情绪或风格,无需重新录音即可快速生成多版本音频,提升沉浸感。
  • 视频与广告配音:短视频、动画、广告片可零样本克隆角色音色,再迭代添加“撒娇、夸张、严肃”等风格,实现低成本、多角色、多情绪的自动配音。
  • 游戏/虚拟偶像:NPC、虚拟主播、VTuber 先用一句参考语音克隆音色,再实时插入笑声、呼吸、叹气等副语言,打造更鲜活、可持续互动的角色语音。
  • 智能客服与语音助手:客服机器人可在原有 TTS 基础上,通过编辑把“平淡答复”转为“热情/安抚”情绪,改善用户体验;同时支持方言标签,满足地域化服务。
  • 教育/语言学习:在线课程、语言 APP 利用“老人/小孩/耳语”风格生成适龄读音,或把标准普通话秒切粤语、四川话,帮助学生跟读模仿,降低教师录音成本 。
  • 会议记录与无障碍:对含噪声或过长停顿的会议录音,先进行“降噪+静音修剪”编辑,再按需求提高语速或加入情感,生成清晰、易读的会议纪要音频 。

📝 站长洞察 (Editor’s Insight)

Step-Audio-EditX的发布标志着AIGC音频进入“可编辑LLM”时代。过去,TTS模型多为端到端黑盒,生成后难以修改;而Step-Audio-EditX将语音视为“词汇”,用LLM直接操作离散token,实现了类似文本编辑般的精细调控——这不仅是技术路径的创新,更预示着音频内容生产逻辑的根本转变:从“一次性生成”转向“迭代式创作”。其统一框架同时覆盖零样本克隆、情感编辑、方言切换,大幅降低系统复杂度,契合当前AI应用追求“一体化、轻量化”的趋势。值得关注的是,模型仅用合成数据SFT+PPO,避免了昂贵的真人标注,展示了LLM在垂直领域“以数据驱动解耦”的潜力。未来,随着多模态融合深化,此类“可控生成”能力或将成为AI原生内容创作的基础设施,而开源策略将加速其在商业场景的渗透。

8个月估值暴增150亿!AI独角兽Cognition融资10亿美元背后:Devin如何重塑万亿软件开发市场
08-10 AIGC 早报
Jochem
智源发布RoboCOIN:18万条演示数据,打造具身智能研究的开源基石
科大讯飞星火X2-Flash MoE大模型发布:30B参数对标万亿级性能,Agent时代性价比之王
TAGGED:AIGC情感编辑阶跃星辰零样本TTS音频大模型
分享
Email 复制链接 打印
Share
上一篇 Maya1开源发布:30亿参数语音合成模型,支持20+情绪实时生成,重塑AI声音未来
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Maya1开源发布:30亿参数语音合成模型,支持20+情绪实时生成,重塑AI声音未来
AI 工具 AIGC 资讯
蚂蚁开源Ming-Flash-Omni 2.0:100B参数MoE全模态大模型,统一图文音理解与生成,定义开源AI新标准
AI 工具 AIGC 资讯
OpenAI发布GPT-5.3-Codex-Spark:1000+ tokens/秒,实时编程交互革命
AI 工具 AIGC 资讯
OpenAI发布GPT-5.3 Instant:免费轻量模型,告别啰嗦说教,联网搜索、专业咨询体验大升级
AI 工具 AIGC 资讯

相关推荐

AI 工具

Venngage

remaker
AI 工具AIGC 资讯

米哈游蔡浩宇押注!17B参数LPM 1.0:实时全双工、无限时长、跨风格数字人新标杆

站外新闻
AI视频生成 LPM 1.0 实时交互 数字人 蔡浩宇
AI 工具AIGC 资讯

OpenAI重磅发布GPT-5.5 Instant:幻觉率暴降52.5%,ChatGPT免费用户迎来AI新纪元

站外新闻
AI幻觉 chatgpt GPT-5.5 Instant openai 大模型
AI 工具AIGC 资讯

EdgeClaw:面壁智能联合清华开源AI智能体框架,首创三层数据安全协议,实现端云协同与本地隐私守护

站外新闻
AI智能体框架 数据安全 清华 端云协同 面壁智能
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI图像生成 AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程工具 AI视频生成 AI设计 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 商汤科技 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 科大讯飞 端侧AI 端侧大模型 端侧部署 网络安全 腾讯 腾讯混元 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 长上下文 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.