探索合成语音的挑战与机遇 [译]

我们将分享一次 Voice Engine 小型试验项目的经验教训，这是一款能够创建定制语音的模型。

阅读目录

Voice Engine 的初步应用探索
打造安全的 Voice Engine
展望 Voice Engine 的未来

OpenAI 致力于研发既安全又能普遍造福社会的 AI 技术。今天，我们要分享一个名为 Voice Engine 的模型的小规模试验初步见解与成果。该模型通过文本输入及仅一段 15 秒的音频样本，生成既自然又与原声极为接近的语音。特别值得一提的是，即使是一个小型模型，只需一个 15 秒的样本，也能创造出富有情感且逼真的声音。

我们在 2022 年末首次开发了 Voice Engine，并以此为文本到语音 API、ChatGPT Voice 和 Read Aloud 提供预设语音。同时，考虑到合成语音可能被滥用的风险，我们正采取谨慎且信息充分的策略对更广泛的发布进行规划。我们希望能够启动一个关于合成语音责任使用的讨论，并探讨社会如何适应这些新技术。依据这些讨论及小规模试验的成果，我们将更有信息地决定是否及如何将这项技术广泛部署。

Voice Engine 的初步应用探索

为了深入探索这项技术的应用潜力，我们于去年末开始与一小批信赖的合作伙伴进行了私密性测试。这些合作伙伴所开发的应用程序令我们印象深刻。这些小规模的实践不仅丰富了我们的方法论、增强了安全保障，也促使我们深思 Voice Engine 如何在多个行业中发挥积极作用。一些初期的应用示例包括：

通过提供听起来自然而充满感情的声音，为非读者和儿童提供阅读辅助，涵盖了比预设声音更广泛的说话者。教育科技公司 Age of Learning 致力于儿童的学术成就，他们利用这项技术生成了预编写的旁白内容，并结合 Voice Engine 及 GPT-4 技术，实时生成个性化反馈与学生互动。借助这项技术，Age of Learning 得以为更广大的受众创造了更多内容。
- 参考音频样本
  - English:
  - Spanish:
- 生成的音频
  - Learning Together:
  - Promotion:
  - Learning Spanish:
利用 Voice Engine 转换内容，如视频和播客，使创作者和企业以自己的声音，流畅地触及全球更多人群。HeyGen 是此技术的早期采用者之一，它是一个 AI 视觉故事讲述平台，与企业客户合作为不同的内容创作定制化、接近真人的虚拟形象，覆盖产品营销到销售演示等领域。他们利用 Voice Engine 进行视频内容的多语种翻译，以便触及全球观众。在翻译过程中，Voice Engine 能够保持原始说话者的特有口音，例如，将一个法国说话者的声音转换成英语时，生成的语音将带有法国口音。
- 参考音频样本
- 生成的音频
  - 普通话：
  - 日语：
  - 西班牙语：
  - 德语：
  - 法语：
通过提升偏远地区基础服务的质量，连接全球社区。Dimagi 正在开发工具，帮助社区卫生工作者提供必要的服务，如为哺乳期母亲提供咨询。为了帮助这些工作者提高技能，Dimagi 结合 Voice Engine 和 GPT-4，用工作者的母语提供交互式反馈，包括斯瓦希里语或肯尼亚流行的混合语言 Sheng 等更为非正式的语言。
- 参考音频样本
  - Swahili:
  - Sheng:
- 生成的音频
  - Nutrition:
  - Vitamin A:
  - Breastfeeding:
支持无法言语的人群，例如为受语言障碍影响的个体提供治疗应用，以及满足学习需求者的教育增强。Livox 是一款 AI 辅助交流应用，支持增强和替代性交流（AAC）设备，帮助残障人士进行沟通。通过使用 Voice Engine，Livox 为无法言语的人提供多种语言下的独特而非机械式的声音选择，用户可以挑选最能体现个人特色的语音，并对多语种用户提供在每种语言中保持一致声音的能力。
- 参考音频样本
- 生成的音频
  - English:
  - Portuguese:
帮助患者找回自己的声音——对于那些因突发或逐渐恶化的疾病导致语言能力受损的人来说。Norman Prince 神经科学研究所隶属于 Lifespan 健康系统，后者是一个非营利机构，同时也是布朗大学医学院的主要教学附属。该研究所正在探索 AI 技术在临床场景中的应用。他们启动了一个试点项目，向那些因肿瘤或神经病理学原因导致语言障碍的个体提供 Voice Engine 服务。得益于 Voice Engine 仅需极短的音频样本，Fatima Mirza 医生、Rohaid Ali 医生和 Konstantina Svokos 医生成功地利用一名年轻患者为学校项目录制视频的音频，恢复了她因脑血管肿瘤而失去的流畅语言能力。
- 患者现在的声音
- 参考音频样本
- 生成的音频
  - Talking
  - Ordering

打造安全的 Voice Engine

我们深知生成与人声相似的语音带来的严重风险，在选举年份尤其引人关注。因此，我们正与政府、媒体、娱乐业、教育界、民间组织以及更广泛领域的美国及国际合作伙伴沟通，确保他们的反馈被我们在构建 Voice Engine 时考虑在内。

当前参与 Voice Engine 测试的合作伙伴已同意遵守我们的使用政策，该政策明确禁止未经授权模仿任何个人或组织。此外，我们与这些合作伙伴的协议要求必须得到原始发言者的明确知情同意，我们也不允许开发人员创建让用户自制声音的功能。合作伙伴必须向听众明确声明，他们听到的声音是 AI 合成的。最后，我们部署了一系列安全措施，包括对 Voice Engine 生成的任何音频加上水印，以便追溯其来源，同时主动监控其使用情况。

我们认为，合成语音技术的广泛推广必须配备语音认证机制，确保原始发言者明知并同意加入其声音到服务中，并设立一个声音黑名单，防止制作出与公众人物过分相似的声音。

展望 Voice Engine 的未来

Voice Engine 代表了我们对技术前沿的深入理解和对 AI 未来可能性的公开探索的持续承诺。根据我们对 AI 安全的看法和自愿承诺，我们目前选择仅进行技术预览而不广泛发布。我们希望，通过这次预览，不仅展示 Voice Engine 的巨大潜力，还能够激发社会加强防范，以应对由越来越逼真的生成模型带来的挑战。具体来说，我们支持以下措施：

逐步取消使用声音认证作为访问银行账户和其他敏感信息的安全手段
探讨保护个人声音在 AI 应用中的政策
向公众普及 AI 技术的能力与局限，包括对可能的欺骗性 AI 内容的认识
加快开发和采纳追溯视听内容来源的技术，确保用户明确知道自己是在与真人还是 AI 进行互动

全球范围内的人们理解这项技术的前进方向至关重要，无论我们最终是否广泛部署它。我们期待与政策制定者、研究者、开发者和创意工作者继续进行关于合成声音技术的挑战与机遇的深入讨论。

探索合成语音的挑战与机遇 [译]

Voice Engine 的初步应用探索

打造安全的 Voice Engine

展望 Voice Engine 的未来

发表评价取消回复

最近更新

大语言模型的“破解”研究：仅需二十次尝试 [译]

Deep Research 与知识价值：从信息搜索到价值重新定义

什么是多模态大语言模型（MLLM）？[译]

比尔·盖茨：特朗普、马斯克，以及我的神经多样性如何塑造了我 [译]

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

Voice Engine 的初步应用探索

打造安全的 Voice Engine

展望 Voice Engine 的未来

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复