AIGC 产业架构
AIGC 产业生态加速形成和发展,走向模型即服务(MaaS)的未来,目前,AIGC 产业生态体系的雏形已现,呈现为上中下三层架构:
第一层,为上游基础层,也就是由预训练模型为基础搭建的 AIGC技术基础设施层。由于预训练模型的高成本和技术投入,因此具有较高的进入门槛。
以 2020 年推出的 GPT-3 模型为例Alchemy APl 创始人 Elliot Turner 推测训练 GPT-3 的成本可能接近 1200 万美元。
因此,目前进入预训练模型的主要机构为头部科技企业、科研机构等。目前在AIGC领域,美国的基础设施型公司(处于上游生态位)有OpenAl、Stability.ai等。
OpenAl的商业模式为对受控的 api调用进行收费。Stabilitv.ai以基础版完全开源为主,然后通过开发和销售专业版和定制版实现商业获利,目前估值已经超过 10 亿美金。因为有了基础层的技术支撑,下游行业才能如雨后春笋般发展,形成了目前美国的 AIGC 商业流。
第二层,为中间层,即垂直化、场景化、个性化的模型和应用工具。
预训练的大模型是基础设施,在此基础上可以快速抽取生成场景化、定制化、个性化的小模型,实现在不同行业、垂直领域、功能场景的工业流水线式部署,同时兼具按需使用、高效经济的优势。随着兼具大模型和多模态模型的AIGC模型加速成为新的技术平台,模型即服务(Model-as-a-Service,MaaS)开始成为现实,预计将对商业领域产生巨大影响。Stable Diffusion 开源之后,有很多基于开源模型的二次开发,训练特定风格的垂直领域模型开始流行,比如著名的二次元画风生成的 Novel-Al,还有各种风格的角色生成器等。
第三层,为应用层,即面向C端用户的文字、图片、音视频等内容生成服务。
在应用层,侧重满足用户的需求,将 AIGC 模型和用户的需求无缝衔接起来实现产业落地。以 Stable Diffusion 开源为例,它开放的不仅仅是程序,还有其已经训练好的模型,后继创业者能更好的借助这一开源工具,以 C端消费级显卡的算力门槛,挖掘出更丰富的内容生态,为 AIGC 在更广泛的C端用户中的普及起到至关重要的作用。
现在贴近C端用户的工具越发丰富多样,包括网页、本地安装的程序、移动端小程序、群聊机器人等,甚至还有利用 AIGC工具定制代出图的内容消费服务。
目前,从提供预训练模型的基础设施层公司到专注打造 AIGC产品和应用工具的应用层公司,美国围绕 AIGC 生长出繁荣的生态,技术创新引发的应用创新浪潮迭起:中国也有望凭借领先的 AIGC 技术赋能千行百业。
AIGC 应用场景
AIGC在面向不同对象和不同场景时,具有强大的自适应创作能力,因此被应用在了多种场景。具体包括:
【图像生成】
该领域目前发展势头最猛,且落地产品较多。根据使用场景,可分为图像编辑工具和端到端图像生成。图像编辑包括图像属性编辑(如去水印、风格迁移、图像修复等)和图像内容编辑(如修改面部特征、换脸等)。端到端图像生成包括基于图像生成(如基于草图生成完整图像,根据特定属性生成图像等)和多模态转换(如根据文字生成图像等)。
典型的产品或算法模型包括EditGAN、Deepfake、DALL-E、MidJourney、Stable Diffusion、文心·一格等。
【视频生成】
视频生成与图像生成在原理上有一定相似性,可分为视频编辑(如画质修复、视频特效、视频换脸等)、视频自动剪辑和端到端视频生成(如文字生成视频等)。
典型的产品或算法模型包括Deepfake、videoGPT、Gliacloud、Make-A-Video、Imagen video等。
【文本生成】
基于NLP技术的文本生成可以算是AIGC中发展最早的一部分技术,功能也较为多样。根据使用场景,可分为非交互式文本生成和交互式文本生成。非交互式文本生成包括内容续写、摘要/标题生成、文本风格迁移、整段文本生成、图像生成文字描述等功能。交互式文本生成包括聊天机器人、文本交互游戏等功能。
典型的产品或算法模型包括JasperAI、Copy.ai、彩云小梦、AI dungeon、ChatGPT等。
【音频生成】
音频生成中的部分技术已经较为成熟,被应用于多种C端产品中。音频生成可分为TTS(Text-to-speech)场景和乐曲生成两类。其中TTS包括语音客服、有声读物制作、智能配音等功能。乐曲生成包括基于开头旋律、图片、文字描述、音乐类型、情绪类型等生成特定乐曲。
典型的产品或算法模型包括DeepMusic、WaveNet、Deep Voice、MusicAutoBot等。
【游戏生成】
游戏生成主要包括游戏元素生成和游戏策略生成,其中游戏元素生成包括游戏场景、游戏剧情、NPC角色等元素的生成。游戏策略生成主要指对战策略,一般基于深度强化学习的技术。
典型的产品或算法模型包括rct AI、超参数、腾讯AI Lab等。
【代码生成】
代码生成主要包括代码辅助的功能,包括代码补全、自动注释、根据上下文生成代码、根据注释生成代码等功能。
典型的产品或算法模型包括Github Copilot、Replit、CodeGeeX、Mintlify等。
【3D生成】
与图像生成和视频生成相比,目前3D内容生成还处于较为初级阶段。现有的3D生成基本为基于图像或文本生成3D模型。
典型的产品或算法模型包括Magic3D、DreamFusion、AVAR等。
国际 AIGC 行业现状
我国 AIGC 行业现状
随着数字技术与实体经济融合程度不断加深,以及互联网平台的数字化场景向元宇宙转型,人类对数字内容总量和丰富程度的整体需求不断提高。
AIGC作为当前新型的内容生产方式,已经率先在传媒、电商、影视、娱乐等数字化程度高、内容需求丰富的行业取得重大创新发展。市场潜力逐渐显现。与此同时,在推进数实融合、加快产业升级的进程中,金融、医疗、工业等各行各业的 AIGC 应用也都在快速发展。
参考内容:智源社区-被称为下一代风口的AIGC到底是什么?https://hub.baai.ac.cn/view/23295