08-30 AIGC 早报

效果不输Midjourney？Transpic可一键将照片转换成插画。根据设计师对转绘图像的需求，这款工具可以分为两种用途:素材参考和灵感参考。使用的步骤相同，不同之处在于相似度的数值不同。主要功能:1.上传图片生成多张不同风格的插画。2.支持调整生成插画的数量、相似度、风格等。3.提供多种插画风格选择，如二次元、速涂、动漫、概念、迪士尼等。4.有固定原图元素的选项，如固定线稿、轮廓、构图等。5.提供新手教程和反馈渠道。
自媒体新工具： VALL-EX – 一个开源的多语言文本到语音合成与语音克隆模型。该模型支持多种语言（英语、中文和日语）和零样本语音克隆，你只需要提供一个人短短几秒钟的录音（3-10秒），就能模仿出那个人的声音。此外，它还具有语音情感控制和口音控制等高级功能。 VALL-EX最初由微软发布。但并未发布任何代码或预训练模型。作者认识到了这项技术的潜力和价值，复现并训练了一个开源可用的VALL-E X模型。 VALL-E X 模型具有以下显著的功能特点： 1.多语言 TTS（文本到语音合成）: 支持英语、中文和日语，能进行自然和富有表现力的语音合成。 2.零样本语音克隆: 只需录制说话人短短的 3~10 秒录音，即可生成个性化、高质量的语音。 3.语音情感控制: 能合成与给定说话人录音相同情感的语音。 4.零样本跨语言语音合成: 可以合成与给定说话人母语不同的另一种语言的语音。 5.口音控制: 允许用户控制所合成音频的口音。 6.声学环境保留: 当给定说话人的录音在不同的声学环境下录制时，模型可以保留该声学环境。 VALL-E X 模型还采用了GPT风格的自回归模型和EnCodec解码器，以实现高效和高质量的多语言文本到语音合成。这意味着模型会考虑到之前生成的音频片段来生成接下来的音频。这种结构使模型在计算资源和时间方面更加经济，同时也能生成高质量的中文和日文语音。项目地址：https://github.com/Plachtaa/VALL-E-X/blob/master/README-ZH.md
OpenAI 有望在未来 12 个月获得超过 10 亿美元营收。据金十援引 The Information 8 月 30 日报道，OpenAI 有望在未来 12 个月内通过销售人工智能软件及其算力创造超过 10 亿美元的收入。据一位了解情况的人士透露，这远远超过了该公司此前向股东公布的收入预期。今年早些时候，投资者从现有股东手中购买股票时，该公司的账面价值为 270 亿美元。去年，OpenAI 在开始对 ChatGPT 收费之前，仅创造了 2,800 万美元的收入。
科学家成功利用植入物结合 AI 将大脑信号转为语音。荷兰拉德堡德大学和乌得勒支大学科学家成功将人类的大脑信号转化为人们能听得见的语音。借助植入物和人工智能解码来自大脑的信号，他们能够预测用户想说的话，准确率为 92% 至 100%。研究人员希望这项技术能够帮助瘫痪且无法沟通的患者再次“发声”。相关论文发表于最新一期《神经工程杂志》。
谷歌推出人工智能助理 Duet AI，覆盖 Workspace 所有应用，如 Gmail、Drive 等。Duet AI 能转换文档、制作图表、写邮件、生成图像。在 Google Meet 提供智能光照、声音调整；Chat 中自动摘要。使用费用为30美元。相比微软的 Copilot，功能相似，价格高昂。AI工具仍有风险，但两大公司均看好其未来发展潜力。
AI搞钱：AI辅助小说《螳螂》已正式在各大平台上架，售价：￥37.4，这是一个悬疑小说，更是一次AI辅助小说的尝试，同时AI还参与了封面设计、宣发图文制作等流程。这给文字创作者和想要AI搞钱的人提供了思路。

08-30 AIGC 早报

发表评价取消回复

最近更新

大语言模型的“破解”研究：仅需二十次尝试 [译]

Deep Research 与知识价值：从信息搜索到价值重新定义

什么是多模态大语言模型（MLLM）？[译]

比尔·盖茨：特朗普、马斯克，以及我的神经多样性如何塑造了我 [译]

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

Support

发表评价 取消回复

最近更新

相关推荐

发表评价取消回复