AIGC发展历程和典型事件
虽然从严格意义上来说,1957年莱杰伦·希勒 (Lejaren Hiller) 和伦纳德·艾萨克森 (Leonard isaacson)完成了人类历史上第一支由计算机创作的音乐作品就可以看作是 AIGC 的开端,距今已有 65 年,这期间也不断有各种形式的生成模型、Al 生成作品出现。
但是2022年才真正算是 AIGC 的爆发之年,人们看到了 AIGC 无限的创造潜力和未来应用可能性。目前,AIGC 技术沉淀、产业生态已初步形成,保持强劲发展和创新势头。
使用计算机生成内容的想法自上个世纪五十年代就已经出现,早期的尝试侧重于通过让计算机生成照片和音乐来模仿人类的创造力,生成的内容也无法达到高水平的真实感。结合人工智能的演进改革,AIGC的发展可以大致分为以下三个阶段:
早期萌芽阶段(1950s-1990s)
受限于科技水平,AIGC仅限于小范围实验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词。
世界上第一个机器人“伊莉莎(Eliza)”
沉积积累阶段(1990s-2010s)
AIGC从实验性向实用性逐渐转变。深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都取得了重大突破,受到算法瓶颈的限制,效果有待提升。2007 年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。
世界上第一部完全由人工智能创作的小说《1 The Road》
快速发展阶段(2010s-至今)
深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。下面列举了一些迄今为止具有代表性的算法模型,其中主要集中在AI绘画领域:
- 2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。
- 2021年2月,openAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。
- 2022年,扩散模型Diffusion Model逐渐替代GAN。
上述三个算法是当前AIGC的技术核心,下述算法模型大部分都是以此为基础。
- 2018年12月,NVIDIA推出StyIeGAN ,可以自动生成高分辨率图片。目前已升级到第四代模型。
- 2019年7月,DeepMind推出DVD-GAN ,可以生成连续视频。
- 2021年1月,OpenAI 推出DALL-E,是首个引起公众广泛关注的文本生成图像的模型之一。
- 2022年2月,开源AI绘画工具Disco Diffusion发布。
- 2022年3月,Meta推出Make-A-Scene这一AI图像生成工具。
- 2022年4月,OpenAI 推出了DALL-E-2,在图像分辨率、真实感和新功能上进行了升级。
- 2022年4月,AI绘画工具MidJourney发布。
- 2022年5月,Google推出Imagen,同样是文本生成图像的模型。
- 2022年6月,Google推出parti,与Imagen功能相同,但在模型算法、模型参数和图像效果等方面做了升级。
- 2022年7月,开源AI绘画工具Stable Diffusion发布。
- 2022年9月,Meta推出Make-A-Video,可以从文字生成视频。
- 2022年10月,Google提出Imagen video,同样是文字生成视频的模型。
- 2022年11月,Stable Diffusion 2.0发布,在模型算法、图像质量和内容过滤等方面做了升级。
- 2022年11月,openAI推出 AI 聊天机器人chatGPT。
主流生成模型诞生历程
生成算法、预训练模型、多模态等AI技术累积融合,催生了AIGC 的大爆发。
基础的生成算法模型不断突破创新
2014年,伊恩·古德费洛(lan Goodfellow)提出的生成对抗网络(Generative Adversarial Network,GAN)成为早期最为著名的生成模型。
GAN 使用合作的零和博弈框架来学习,被广泛用于生成图像、视频、语音和三维物体模型等。GAN 也产生了许多流行的架构或变种,如DCGAN,StyleGAN,BigGAN,StackGAN.Pix2pix,Age-cGAN,CycleGAN、对抗自编码器(Adversarial Autoencoders,AAE)、对抗推断学习(Adversarially Learned Inference,ALI)等。
随后,Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。其中,Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按照输入数据各部分重要性的不同而分配不同的权重,可以用在自然语言处理(NLP)、计算机视觉(CV)领域应用。后来出现的 BERT、GPT-3、LaMDA等预训练模型都是基于Transformer 模型建立的。
而扩散模型(Diffusion Mode)是受非平衡热力学的启发,定义一个扩散步骤的马尔可夫链,逐渐向数据添加随机噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好,它们最终可以从纯噪声作为唯一输入生成逼直的图片。
然而,从最优化模型性能的角度出发,扩散模型相对 GAN 来说具有更加灵活的模型架构和精确的对数似然计算,已经取代 GAN 成为最先进的图像生成器。2021年6月,OpenAl 发表论文已经明确了这个结论和发展趋势。
预训练模型引发了 AIGC技术能力的质变
虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了 AIGC技术能力的质变,以上的诸多落地问题得到了解决。
随着 2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。AI预训练模型,又称为大模型、基础模型(foundation mode),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。这些模型基于迁移学习的思想和深度学习的最新进展,以及大规模应用的计算机系统,展现了令人惊讶的涌现能力,并显著提高各种下游任务的性能。”鉴于这种潜力,预训练模型成为 AI技术发展的范式变革,许多跨领域的Al系统将直接建立在预训练模型上。具体到 AIGC 领域,AI 预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括:(1)自然语言处理(NLP)预训练模型,如谷歌的 LaMDA和 PaLM、Open AI的 GPT 系列:(2)计算机视觉(CV)预训练模型,如微软的 Florence:(3)多模态预训练模型,即融合文字、图片、音视频等多种内容形式。
多模态技术推动了 AIGC 的内容多样性,让 AIGC 具有了更通用的能力
预训练模型更具通用性,成为多才多艺、多面手的 Al模型,主要得益于多模型技术(multimodal technol-ogy)的使用,即多模态表示图像、声音、语言等融合的机器学习。
2021年,OpenAI团队将跨模态深度学习模型CLIP(Contrastive Lanquaqe-Image Pre-Training,以下简称“CLIP”)进行开源。CLIP 模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,CLIP 模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP 模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为 CLIP 天然的训练样本。
据统计,CLIP 模型搜集了网络上超过 40 亿个“文本-图像”训练数据,这为后续 AIGC 尤其是输入文本生成图像/视频应用的落地奠定了基础。在多模态技术的支持下,目前预训练模型已经从早期单一的 NLP或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。
2021年3月OpenAl发布Al绘画产品DALL·E,只需要输入一句文字,DALL·E 就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DALL·E 背后的关键技术即是 CLIP。CLIP 让文字与图片两个模态找到能够对话的交界点,成为 DALL·E、DALL·E2.0、Stable Diffusion 等突破性 AIGC成果的基石。总的来看,AIGC 在 2022 年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC技术变革,拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC模型成为了自动化内容生产的“工厂”和“流水线”。