基于对不同技术原理的梳理,我们将图像生成领域的技术场景划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中,前两者的落地场景为图像编辑工具,而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。
图像属性及部分编辑
属性编辑部分,可以直观地将其理解为经AI降低门槛的PhotoShop。目前而言,图片去水印、自动调整光影、设置滤镜(如Prisma、Versa、Vinci和Deepart)、修改颜色纹理(如DeepAl)、复刻/修改图像风格(DALL·E2已经可以仅凭借单张冬像进行风格复刻,NiahtCafe等)、提升分辨率等已经常见。
关于此类场景,初创公司数量庞大,Adobe等相关业务公司(Adobe Sensai)也在进入这一领域。我们认为,对于此类业务而言,引流渠道和与技术流程挂钩的产品使用体验非常重要。现有的代表公司包括美图秀秀(美图AI开放平台)、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum (Mask Al)、Photodiva。
图像编辑部分,指更改图像部分构成(如英伟达CvcleGAN支持将图内的斑马和马进行更改)、修改面部特征(Metaphysics,可调节自身照片的情绪、年龄、微笑等;以Deepfake为代表的图像换脸)。由于技术限制,图像的各部分之间需要通过对齐来避免扭曲,伪影等问题,目前GAN还难以直接生成高质量的完整图像。2019年,曾宣传能够直接生成完整模特图的日本公司DataGrid目前已无动向。但同时,也出现了由局部生成并接为完整冬像的生成惠路。典型代表为选入CVPR2022的InsetGAN,该模型由Adobe推出。
图像端到端生成
此处则主要指基于草图生成完整图像(VansPortrait、谷歌Chimera painter可画出怪物、英伟达GauGAN可画出风景、基于草图生成人脸的DeepFaceDrawing)、有机组合多张图像生成新图像(Artbreeder)、根据指定属性生成目标图像(如Rosebud.ai支持生成虚拟的模特面部)等。
该部分包含两类场景,分别为创意图像生成与功能性图像生成。前者大多以NFT等形式体现,后者则大多以营销类海报/界面、loao、模特图、用户头像为主。
垂直代表公司/产品包括 Deepdream Generator、Rosebud.ai、AGahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid、诗云科技、道子智能绘画系统等。
由于冬像的生成复杂度远高于文字,在整体生成上,目前仍然难以达到稳定可靠的生成高质量图像。但据高林教授评价,人脸生成的应用将预计有更快的发展。从VAQ、VAE等技术选型开始,人脸生成的技术研究已经有了较好的效果,同时人脸数据集也较为充足。同时,单张人脸的生成价值相对有限。
要进一步发挥其价值,可以考虑将其与NeRE、也即3D内容生成相结合,支持从不同的视角和动作还原特定对象的面部,能够在发布会、面见客户等场景中有重要作用。而对于近年视频换脸效果不佳的情况,高教授认为这与底层设计优化,例如除纹理相似度之外,在解编码中考虑更多的时间、动作、甚至情感等因素,并叠加考虑数据、渲染能力等因素。
图像、视频、文本间跨模态生成
模态是指不同的信息来源或者方式。目前的模态,大多是按照信息媒介所分类的音频、文字、视觉等。而事实上.在能够寻找到合适的载体之后,很多信息,诸如人的触觉、听觉、情绪、生理指标、甚至于不同传感器所对应的点云、红外线、电磁波等都能够变为计算机可理解可处理的模态。
对人工智能而言,要更为精准和综合地观察并认知现实世界,就需要尽可能向人类的多模态能力靠拢,我们将这种能力称为多模态学习MML(Multi-modal Learning),其中的技术分类及应用均十分多样。我们可以简单将其分为跨模态理解(例如通过结合街景和汽车的声音判断交通潜在危险、结合说话人的唇形和语音判定其说话内容)和跨模态生成(例如在参考其他图画的基础上命题作画:触景生情并创作诗歌等)。
Transformer架构的跨界应用成为跨模态学习的重要开端之一。
Transformer架构的核心是Self-Attention机制,该机制使得Transformer能够有效提取长序列特征,相较于CNN能够更好的还原全局。而多模态训练普遍需要将图片提取为区域序列特征,也即将视觉的区域特征和文本特征序列相匹配,形成Transformer架构擅长处理的一维长序列,对Transformer的内部技术架构相符合。
与此同时Transformer架构还且有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。Vision Transformer将Transformer架构首次应用于图像领域。该模型在特定大规模数据集上的训练成果超出了ResNet。
随后,谷歌的VideoBERT尝试了将Transformer拓展到“视频-文本”领域。该模型能够完成看图猜词和为视频生成字幕两项功能,首次验证了Transformer+预训练在多模态融合上的技术可行性。基于Transformer的多模态模型开始受到关注,ViLBERT、LXMERT、UNITER、Oscar等纷纷出现。
CLIP模型的出现,成为跨模态生成应用的一个重要节点。
CLIP.ContrastiveLanguage-Image Pre-training,由OpenAl在2021年提出,图像编码器和文本编码器以对比方式进行联合训练,能够链接文本和图片。可以简单将其理解为,利用CIP测定冬片和文本描述的贴切程度。
自CHP出现后,“CLP+其他模型”在跨模态生成领域成为一种较为通用的做法。以Disco Diffusion为例,该模型将CLIP模型和用于生成图像的Diffusion模型进行了关联。CLIP模型将持续计算Diffusion模型随机生成噪声与文本表征的相似度,持续迭代修改,直至生成可达到要求的图像。
除去图像领域,CLIP后续还在视频、音频、3D模型等领域扮演了关联不同模态的角色。例如入选CVPR2022.基于文本生成3D参像的Dreamfields(类似工作还包括CP-Forae)。不过目前,已经出现了在所需数据量和算力上表现更为优秀的匹配模型。例如南加州大学的TONICS。
在此基础上,大型预训练模型的发展重点开始向横跨文本、图像、语音、视频的全模态通用模型发展。通过计算策略、数据调用策略、深度学习框架等方法提升模型效果成为目前研究的进展关键。与此同时,覆盖更多模态的训练数据同样值得关注。例如,MultiBench提供了包括10个模态的数据集,PanoAVQA提供了360度视频数据,X-World提供用于自动驾驶的各类模态数据。目前,华为诺亚方舟已经开源了全球首个亿级中文多模态数据集“悟空”。
跨模态大型预训练模型的代表包括:开启了跨模态预训练模型的Open ALDALL·E及CLIP、NVIDIA GauGAN2.微软及北大 NÜWA女娲、NVIDIA PoEGAN、DeepMind的Gato、百度ERNIE-ViLG、Facebook及Meta 的AV-HuBERT(基于语音和唇语输出文本)及Data2vec(横跨CV、NIP和语音)、中科院“紫东太初”、哥大及Facebook开发的VX2Text(基于视频、音频等输出文本)。
多模态能力的提升将成为AI真正实现认知智能和决策智能的关键转折点。在未来1-2年,“文字一图像”的生成将快速落地。目前,“文字-视频”的生成也已有相对理想的实验效果,三个模态的跨模态生成也已经开始尝试。
接下来,我们将区分具体模态,对跨模态生成领域的代表模型进行介绍:
文字生成图像
2021年,OpenAI的CLIP和DALLE开启了AI绘画重要的一年。同年,CVPR2021收录的VQGAN也引发了广泛关注。2022年被称为“AI绘画“之年,多款模型/软件证明了基于文字提示得到效果良好的图画的可行性,DiffusionModel受到广泛关注。
首先,OpenAI推出了GLIDE。GLIDE全称Guided Lanquage to Image Diffusion for Generation andEditing,是一种扩散模型,参数仅35亿。支持CLIP引导(经训练后的噪声感知64×64 ViT-L CLIP模型)和无分类器引导,支持部分P图和迭代生成。
随后为Disco Dlffusion,该免费开源项目搭载在Google Colab上,需要一定的代码知识,更擅长梦境感的抽象田面,在具象生成和较多的描述语句上效果较差。随后,Disco Diffusion的作者之一推出了AI绘画聊天机器人Midiournev。该软件搭载在Discord上,商业化和产品化更为成熟,并提出了明确的分润模式(商业变现达到两万美金后需要20%分润)。
类似的软件及公司包括Bia Sleep、StarrvAl、WOMBO Dream。国内相关软件则包括Timmat,以及百度文心ERNIE-ViLG、小冰框架、悟道文澜、阿里M6等跨模态生成模型。
更擅长具象、对文本指令还原度更高的DALL。E2和Imagen Al证实了AI绘画的实际应用价值。但需要注意的是两者的技术思路并不相同。尽管扩散模型等引发了巨大关注,但不同的技术思路同样呈现出了较好效果。目前尚无法确定未来AI绘画的关键技术里程碑。
图像/视频到文本
具体应用包括视觉问答系统、配字幕、标题生成等,这一技术还将有助于文本与图像之间的跨模态搜索。代表模型包括METER、ALIGN等。除了在各个模态之间进行跨越生成之外,目前,包括小冰公司在内的多家机构已经在研究多模态生成,同时将多种模态信息作为特定任务的输入,例如同时包括图像内的人物、时间、地点、事件、动作及情感理解、甚至包含背后深度知识等。以保证生成结果更加精准。
主流工具
AI 绘画的主要能力
AI绘画的工作过程,非常像是一个造房子的过程。
AI 绘画算法引擎:主要干活的工人,进行算法计算与设计图匹配(搬砖表水泥)。
所有AI绘画都是基于一定人工智能算法才能实现,主要是AI工程师的事情。这里讲实操不展开。
AI 绘画的大、小模型:房屋的设计师。
设计师的画风与水平,决定了出图的美观上下限。大小模型直接影响成品图好坏。
文生图功能:用语言告诉设计师你的需求。
把你的想法告诉设计师(图片模型),让设计师根据你的文字描述,进行成品图设计。
图生图功能:用图片告诉设计师的你的需求
你展示一张图,要求设计师用自己的风格,复制一份与图片相似的成品。