- ElevenLabs 推出一款新的多语言语音生成模型:Eleven Multilingual v2. Eleven Multilingual v2 能够准确地生成28种语言中的“情感丰富”的AI音频,包括中文!无论使用合成声音还是克隆声音,说话者的独特声音特征都会在所有语言中保持不变。这意味着同一种声音可以用于在28种不同的语言中呈现内容。 项目地址:https://elevenlabs.io/speech-synthesis
- OpenAI 刚刚为 GPT-3.5 Turbo 推出了微调功能! 微调允许用户可以在自己的数据上训练模型并大规模运行。早期测试表明,经过微调的 GPT-3.5 Turbo 可以在狭窄任务上与 GPT-4 相匹敌或超越 GPT-4。 关键点: 1.GPT-3.5 API 的微调:OpenAI 现在允许开发者对 GPT-3.5 API 进行微调,这意味着开发者可以使用自己的数据来定制模型,使其更适合特定的应用或风格。 2.使用问答对进行微调:开发者可以通过提供一系列的问答对来进行微调,这样可以训练出具有特定功能或风格的模型。 3.Prompt 的优化:OpenAI 提供了一种方法,可以将 Prompt 嵌入到模型中,从而减少 Prompt 的长度和占用。这可以优化最多90%的 Prompt 占用,从而节省 API 调用的成本。 4.API 价格的变化:与微调功能的推出相伴随的是 API 价格的增加。微调后的模型使用费用是原来的9倍,但仍然比 GPT-4 的价格便宜。
- Meta 发布 SeamlessM4T AI 模型,可翻译和转录近百种语言。 SeamlessM4T 支持近100种语言的自动语音识别、语音到文本翻译、语音到语音翻译、文本到文本翻译和文本到语音翻译的多任务支持。他们的目标是建立一个通用语言翻译器,就像《银河系漫游指南》中的虚构的巴别鱼一样。 SeamlessM4T 支持: · 近100种语言的自动语音识别 · 近100种输入和输出语言的语音到文本翻译 · 语音到语音翻译,支持近100种输入语言和35种(+英语)输出语言 · 近100种语言的文本到文本翻译 · 文本到语音翻译,支持近100种输入语言和35种(+英语)输出语言 Meta 表示,它将以研究许可证的形式公开发布 SeamlessM4T,以便研究人员和开发人员在此基础上开展工作。此外,Meta 还发布了 SeamlessAlign 的元数据,这是迄今为止最大的开放式多模态翻译数据集之一,共挖掘了 27 万小时的语音和文本对齐。 该模型采用了多任务 UnitY 模型架构,能够直接生成翻译后的文本和语音。 SeamlessM4T 模型的开发是为了实现一个通用的语言翻译器,能够覆盖世界上的大部分语言。 项目地址:https://seamless.metademolab.com/ 项目介绍: https://ai.meta.com/blog/seamless-m4t/
- VMware 和英伟达合作推出 VMware Private AI Foundation:帮助企业拥抱生成式 AI。VMware Private AI Foundation 与英伟达将使企业定制模型并运行生成式 AI 应用程序,包括智能聊天机器人、助手、搜索和摘要。
- 钉钉:开放AI PaaS底座 AI版商业定价19800元起。在备受关注的大模型落地应用场景的收费问题上,钉钉也提出了明确的方案:在专业版年费9800元的基础上,增加10000元即可获得20万次大模型调用额度;在专属钉钉年费基础上,增加20000元即可获得45万次大模型调用额度。
- 谷歌 AI 研究提出利用大语言模型生成个性化文本的通用方法。谷歌 AI 研究团队最近提出了一种利用大型语言模型进行个性化文本生成的通用方法。他们采用多阶段多任务结构,包括检索、排序、摘要、合成和生成,训练大语言模型进行个性化文本生成。为了提高模型的阅读能力,他们引入了辅助任务,要求模型识别文本的作者,以改善模型的解释能力。谷歌在三个公开数据集上验证了该方法的性能,结果显示在所有数据集上相较于基准模型,多阶段多任务框架都取得了显著的改进。
08-23 AIGC 早报
发表评价