Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 探索合成语音的挑战与机遇 [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 探索合成语音的挑战与机遇 [译]
强化 AI 学习

探索合成语音的挑战与机遇 [译]

宝玉的分享
最近更新: 2025年3月31日 下午3:27
SHARE

我们将分享一次 Voice Engine 小型试验项目的经验教训,这是一款能够创建定制语音的模型。

阅读目录
Voice Engine 的初步应用探索打造安全的 Voice Engine展望 Voice Engine 的未来

OpenAI 致力于研发既安全又能普遍造福社会的 AI 技术。今天,我们要分享一个名为 Voice Engine 的模型的小规模试验初步见解与成果。该模型通过文本输入及仅一段 15 秒的音频样本,生成既自然又与原声极为接近的语音。特别值得一提的是,即使是一个小型模型,只需一个 15 秒的样本,也能创造出富有情感且逼真的声音。

我们在 2022 年末首次开发了 Voice Engine,并以此为文本到语音 API、ChatGPT Voice 和 Read Aloud 提供预设语音。同时,考虑到合成语音可能被滥用的风险,我们正采取谨慎且信息充分的策略对更广泛的发布进行规划。我们希望能够启动一个关于合成语音责任使用的讨论,并探讨社会如何适应这些新技术。依据这些讨论及小规模试验的成果,我们将更有信息地决定是否及如何将这项技术广泛部署。

Voice Engine 的初步应用探索

为了深入探索这项技术的应用潜力,我们于去年末开始与一小批信赖的合作伙伴进行了私密性测试。这些合作伙伴所开发的应用程序令我们印象深刻。这些小规模的实践不仅丰富了我们的方法论、增强了安全保障,也促使我们深思 Voice Engine 如何在多个行业中发挥积极作用。一些初期的应用示例包括:

  • 通过提供听起来自然而充满感情的声音,为非读者和儿童提供阅读辅助,涵盖了比预设声音更广泛的说话者。教育科技公司 Age of Learning 致力于儿童的学术成就,他们利用这项技术生成了预编写的旁白内容,并结合 Voice Engine 及 GPT-4 技术,实时生成个性化反馈与学生互动。借助这项技术,Age of Learning 得以为更广大的受众创造了更多内容。

    • 参考音频样本

      • English:

      • Spanish:

    • 生成的音频

      • Learning Together:

      • Promotion:

      • Learning Spanish:

  • 利用 Voice Engine 转换内容,如视频和播客,使创作者和企业以自己的声音,流畅地触及全球更多人群。HeyGen 是此技术的早期采用者之一,它是一个 AI 视觉故事讲述平台,与企业客户合作为不同的内容创作定制化、接近真人的虚拟形象,覆盖产品营销到销售演示等领域。他们利用 Voice Engine 进行视频内容的多语种翻译,以便触及全球观众。在翻译过程中,Voice Engine 能够保持原始说话者的特有口音,例如,将一个法国说话者的声音转换成英语时,生成的语音将带有法国口音。

    • 参考音频样本

    • 生成的音频

      • 普通话:

      • 日语:

      • 西班牙语:

      • 德语:

      • 法语:

  • 通过提升偏远地区基础服务的质量,连接全球社区。Dimagi 正在开发工具,帮助社区卫生工作者提供必要的服务,如为哺乳期母亲提供咨询。为了帮助这些工作者提高技能,Dimagi 结合 Voice Engine 和 GPT-4,用工作者的母语提供交互式反馈,包括斯瓦希里语或肯尼亚流行的混合语言 Sheng 等更为非正式的语言。

    • 参考音频样本

      • Swahili:

      • Sheng:

    • 生成的音频

      • Nutrition:

      • Vitamin A:

      • Breastfeeding:

  • 支持无法言语的人群,例如为受语言障碍影响的个体提供治疗应用,以及满足学习需求者的教育增强。Livox 是一款 AI 辅助交流应用,支持增强和替代性交流(AAC)设备,帮助残障人士进行沟通。通过使用 Voice Engine,Livox 为无法言语的人提供多种语言下的独特而非机械式的声音选择,用户可以挑选最能体现个人特色的语音,并对多语种用户提供在每种语言中保持一致声音的能力。

    • 参考音频样本

    • 生成的音频

      • English:

      • Portuguese:

  • 帮助患者找回自己的声音——对于那些因突发或逐渐恶化的疾病导致语言能力受损的人来说。Norman Prince 神经科学研究所隶属于 Lifespan 健康系统,后者是一个非营利机构,同时也是布朗大学医学院的主要教学附属。该研究所正在探索 AI 技术在临床场景中的应用。他们启动了一个试点项目,向那些因肿瘤或神经病理学原因导致语言障碍的个体提供 Voice Engine 服务。得益于 Voice Engine 仅需极短的音频样本,Fatima Mirza 医生、Rohaid Ali 医生和 Konstantina Svokos 医生成功地利用一名年轻患者为学校项目录制视频的音频,恢复了她因脑血管肿瘤而失去的流畅语言能力。

    • 患者现在的声音

    • 参考音频样本

    • 生成的音频

      • Talking

      • Ordering

打造安全的 Voice Engine

我们深知生成与人声相似的语音带来的严重风险,在选举年份尤其引人关注。因此,我们正与政府、媒体、娱乐业、教育界、民间组织以及更广泛领域的美国及国际合作伙伴沟通,确保他们的反馈被我们在构建 Voice Engine 时考虑在内。

当前参与 Voice Engine 测试的合作伙伴已同意遵守我们的使用政策,该政策明确禁止未经授权模仿任何个人或组织。此外,我们与这些合作伙伴的协议要求必须得到原始发言者的明确知情同意,我们也不允许开发人员创建让用户自制声音的功能。合作伙伴必须向听众明确声明,他们听到的声音是 AI 合成的。最后,我们部署了一系列安全措施,包括对 Voice Engine 生成的任何音频加上水印,以便追溯其来源,同时主动监控其使用情况。

我们认为,合成语音技术的广泛推广必须配备语音认证机制,确保原始发言者明知并同意加入其声音到服务中,并设立一个声音黑名单,防止制作出与公众人物过分相似的声音。

展望 Voice Engine 的未来

Voice Engine 代表了我们对技术前沿的深入理解和对 AI 未来可能性的公开探索的持续承诺。根据我们对 AI 安全的看法和自愿承诺,我们目前选择仅进行技术预览而不广泛发布。我们希望,通过这次预览,不仅展示 Voice Engine 的巨大潜力,还能够激发社会加强防范,以应对由越来越逼真的生成模型带来的挑战。具体来说,我们支持以下措施:

  • 逐步取消使用声音认证作为访问银行账户和其他敏感信息的安全手段
  • 探讨保护个人声音在 AI 应用中的政策
  • 向公众普及 AI 技术的能力与局限,包括对可能的欺骗性 AI 内容的认识
  • 加快开发和采纳追溯视听内容来源的技术,确保用户明确知道自己是在与真人还是 AI 进行互动

全球范围内的人们理解这项技术的前进方向至关重要,无论我们最终是否广泛部署它。我们期待与政策制定者、研究者、开发者和创意工作者继续进行关于合成声音技术的挑战与机遇的深入讨论。

探究推理步骤长度对大语言模型的影响 [译]
“Emoji”一词的由来 [译]
OpenAI GPT-4.5 系统卡
借助 NEAT(非运动性活动热量消耗)的方法,不去健身房也能变得更健康 [译]
EmotionPrompt:运用心理学知识通过情感激发提升大语言模型的能力[译]
分享
Email 复制链接 打印
Share
上一篇 GitHub 成为代码托管领域主导者的过程 GitHub 如何成为代码托管的领头羊,超越 SourceForge [译]
下一篇 在 AI 淘金潮中,企业究竟富得有多少? [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

DeepSeek 开源周第 6 天彩蛋 – DeepSeek-V3/R1 推理系统概览
强化 AI 学习
如何像人类一样进行代码评审(第二部分)
强化 AI 学习
模型即产品(The Model is the Product)
强化 AI 学习
使用大语言模型 (LLMs) 构建产品一年后的经验总结 [译]
强化 AI 学习

相关推荐

Paul Buchheit,这位 Gmail 的创造者,前 Google 工程师,1999 年 12 月 10 日在加利福尼亚州山景城的 Google 办公室工作。通过 AP,APRIL BUCHHEIT 摄影
强化 AI 学习

从 20 年前的愚人节开始的电子邮件革命:Gmail 时代回眸 [译]

宝玉的分享
强化 AI 学习

Midjourney V6:提升提示词的结构和表达能力 [译]

宝玉的分享
1次查看
强化 AI 学习

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第一部分) [译]

宝玉的分享
强化 AI 学习

6 个残酷真相,让你成为更好的人 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码