Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: AIGC 绘图基础
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > AIGC 绘图基础
AIGC 资讯

AIGC 绘图基础

OZ
最近更新: 2023年10月13日 下午7:42
Tags: AIGC AI图像生成 AI绘画
1次查看
SHARE

基于对不同技术原理的梳理,我们将图像生成领域的技术场景划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。其中,前两者的落地场景为图像编辑工具,而端到端的图像生成则对应创意图像及功能性图像生成两大落地场景。

阅读目录
图像属性及部分编辑图像端到端生成图像、视频、文本间跨模态生成文字生成图像图像/视频到文本主流工具AI 绘画的主要能力

图像属性及部分编辑

属性编辑部分,可以直观地将其理解为经AI降低门槛的PhotoShop。目前而言,图片去水印、自动调整光影、设置滤镜(如Prisma、Versa、Vinci和Deepart)、修改颜色纹理(如DeepAl)、复刻/修改图像风格(DALL·E2已经可以仅凭借单张冬像进行风格复刻,NiahtCafe等)、提升分辨率等已经常见。

关于此类场景,初创公司数量庞大,Adobe等相关业务公司(Adobe Sensai)也在进入这一领域。我们认为,对于此类业务而言,引流渠道和与技术流程挂钩的产品使用体验非常重要。现有的代表公司包括美图秀秀(美图AI开放平台)、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum (Mask Al)、Photodiva。

图像编辑部分,指更改图像部分构成(如英伟达CvcleGAN支持将图内的斑马和马进行更改)、修改面部特征(Metaphysics,可调节自身照片的情绪、年龄、微笑等;以Deepfake为代表的图像换脸)。由于技术限制,图像的各部分之间需要通过对齐来避免扭曲,伪影等问题,目前GAN还难以直接生成高质量的完整图像。2019年,曾宣传能够直接生成完整模特图的日本公司DataGrid目前已无动向。但同时,也出现了由局部生成并接为完整冬像的生成惠路。典型代表为选入CVPR2022的InsetGAN,该模型由Adobe推出。

图像端到端生成

此处则主要指基于草图生成完整图像(VansPortrait、谷歌Chimera painter可画出怪物、英伟达GauGAN可画出风景、基于草图生成人脸的DeepFaceDrawing)、有机组合多张图像生成新图像(Artbreeder)、根据指定属性生成目标图像(如Rosebud.ai支持生成虚拟的模特面部)等。

该部分包含两类场景,分别为创意图像生成与功能性图像生成。前者大多以NFT等形式体现,后者则大多以营销类海报/界面、loao、模特图、用户头像为主。

垂直代表公司/产品包括 Deepdream Generator、Rosebud.ai、AGahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid、诗云科技、道子智能绘画系统等。

由于冬像的生成复杂度远高于文字,在整体生成上,目前仍然难以达到稳定可靠的生成高质量图像。但据高林教授评价,人脸生成的应用将预计有更快的发展。从VAQ、VAE等技术选型开始,人脸生成的技术研究已经有了较好的效果,同时人脸数据集也较为充足。同时,单张人脸的生成价值相对有限。

要进一步发挥其价值,可以考虑将其与NeRE、也即3D内容生成相结合,支持从不同的视角和动作还原特定对象的面部,能够在发布会、面见客户等场景中有重要作用。而对于近年视频换脸效果不佳的情况,高教授认为这与底层设计优化,例如除纹理相似度之外,在解编码中考虑更多的时间、动作、甚至情感等因素,并叠加考虑数据、渲染能力等因素。

图像、视频、文本间跨模态生成

模态是指不同的信息来源或者方式。目前的模态,大多是按照信息媒介所分类的音频、文字、视觉等。而事实上.在能够寻找到合适的载体之后,很多信息,诸如人的触觉、听觉、情绪、生理指标、甚至于不同传感器所对应的点云、红外线、电磁波等都能够变为计算机可理解可处理的模态。

对人工智能而言,要更为精准和综合地观察并认知现实世界,就需要尽可能向人类的多模态能力靠拢,我们将这种能力称为多模态学习MML(Multi-modal Learning),其中的技术分类及应用均十分多样。我们可以简单将其分为跨模态理解(例如通过结合街景和汽车的声音判断交通潜在危险、结合说话人的唇形和语音判定其说话内容)和跨模态生成(例如在参考其他图画的基础上命题作画:触景生情并创作诗歌等)。

Transformer架构的跨界应用成为跨模态学习的重要开端之一。

Transformer架构的核心是Self-Attention机制,该机制使得Transformer能够有效提取长序列特征,相较于CNN能够更好的还原全局。而多模态训练普遍需要将图片提取为区域序列特征,也即将视觉的区域特征和文本特征序列相匹配,形成Transformer架构擅长处理的一维长序列,对Transformer的内部技术架构相符合。

与此同时Transformer架构还且有更高的计算效率和可扩展性,为训练大型跨模态模型奠定了基础。Vision Transformer将Transformer架构首次应用于图像领域。该模型在特定大规模数据集上的训练成果超出了ResNet。

随后,谷歌的VideoBERT尝试了将Transformer拓展到“视频-文本”领域。该模型能够完成看图猜词和为视频生成字幕两项功能,首次验证了Transformer+预训练在多模态融合上的技术可行性。基于Transformer的多模态模型开始受到关注,ViLBERT、LXMERT、UNITER、Oscar等纷纷出现。

CLIP模型的出现,成为跨模态生成应用的一个重要节点。

CLIP.ContrastiveLanguage-Image Pre-training,由OpenAl在2021年提出,图像编码器和文本编码器以对比方式进行联合训练,能够链接文本和图片。可以简单将其理解为,利用CIP测定冬片和文本描述的贴切程度。

自CHP出现后,“CLP+其他模型”在跨模态生成领域成为一种较为通用的做法。以Disco Diffusion为例,该模型将CLIP模型和用于生成图像的Diffusion模型进行了关联。CLIP模型将持续计算Diffusion模型随机生成噪声与文本表征的相似度,持续迭代修改,直至生成可达到要求的图像。

除去图像领域,CLIP后续还在视频、音频、3D模型等领域扮演了关联不同模态的角色。例如入选CVPR2022.基于文本生成3D参像的Dreamfields(类似工作还包括CP-Forae)。不过目前,已经出现了在所需数据量和算力上表现更为优秀的匹配模型。例如南加州大学的TONICS。

在此基础上,大型预训练模型的发展重点开始向横跨文本、图像、语音、视频的全模态通用模型发展。通过计算策略、数据调用策略、深度学习框架等方法提升模型效果成为目前研究的进展关键。与此同时,覆盖更多模态的训练数据同样值得关注。例如,MultiBench提供了包括10个模态的数据集,PanoAVQA提供了360度视频数据,X-World提供用于自动驾驶的各类模态数据。目前,华为诺亚方舟已经开源了全球首个亿级中文多模态数据集“悟空”。

跨模态大型预训练模型的代表包括:开启了跨模态预训练模型的Open ALDALL·E及CLIP、NVIDIA GauGAN2.微软及北大 NÜWA女娲、NVIDIA PoEGAN、DeepMind的Gato、百度ERNIE-ViLG、Facebook及Meta 的AV-HuBERT(基于语音和唇语输出文本)及Data2vec(横跨CV、NIP和语音)、中科院“紫东太初”、哥大及Facebook开发的VX2Text(基于视频、音频等输出文本)。

多模态能力的提升将成为AI真正实现认知智能和决策智能的关键转折点。在未来1-2年,“文字一图像”的生成将快速落地。目前,“文字-视频”的生成也已有相对理想的实验效果,三个模态的跨模态生成也已经开始尝试。

接下来,我们将区分具体模态,对跨模态生成领域的代表模型进行介绍:

文字生成图像

2021年,OpenAI的CLIP和DALLE开启了AI绘画重要的一年。同年,CVPR2021收录的VQGAN也引发了广泛关注。2022年被称为“AI绘画“之年,多款模型/软件证明了基于文字提示得到效果良好的图画的可行性,DiffusionModel受到广泛关注。

首先,OpenAI推出了GLIDE。GLIDE全称Guided Lanquage to Image Diffusion for Generation andEditing,是一种扩散模型,参数仅35亿。支持CLIP引导(经训练后的噪声感知64×64 ViT-L CLIP模型)和无分类器引导,支持部分P图和迭代生成。

随后为Disco Dlffusion,该免费开源项目搭载在Google Colab上,需要一定的代码知识,更擅长梦境感的抽象田面,在具象生成和较多的描述语句上效果较差。随后,Disco Diffusion的作者之一推出了AI绘画聊天机器人Midiournev。该软件搭载在Discord上,商业化和产品化更为成熟,并提出了明确的分润模式(商业变现达到两万美金后需要20%分润)。

类似的软件及公司包括Bia Sleep、StarrvAl、WOMBO Dream。国内相关软件则包括Timmat,以及百度文心ERNIE-ViLG、小冰框架、悟道文澜、阿里M6等跨模态生成模型。

更擅长具象、对文本指令还原度更高的DALL。E2和Imagen Al证实了AI绘画的实际应用价值。但需要注意的是两者的技术思路并不相同。尽管扩散模型等引发了巨大关注,但不同的技术思路同样呈现出了较好效果。目前尚无法确定未来AI绘画的关键技术里程碑。

图像/视频到文本

具体应用包括视觉问答系统、配字幕、标题生成等,这一技术还将有助于文本与图像之间的跨模态搜索。代表模型包括METER、ALIGN等。除了在各个模态之间进行跨越生成之外,目前,包括小冰公司在内的多家机构已经在研究多模态生成,同时将多种模态信息作为特定任务的输入,例如同时包括图像内的人物、时间、地点、事件、动作及情感理解、甚至包含背后深度知识等。以保证生成结果更加精准。

主流工具

AI 绘画的主要能力

AI绘画的工作过程,非常像是一个造房子的过程。

AI 绘画算法引擎:主要干活的工人,进行算法计算与设计图匹配(搬砖表水泥)。

所有AI绘画都是基于一定人工智能算法才能实现,主要是AI工程师的事情。这里讲实操不展开。

AI 绘画的大、小模型:房屋的设计师。

设计师的画风与水平,决定了出图的美观上下限。大小模型直接影响成品图好坏。

文生图功能:用语言告诉设计师你的需求。

把你的想法告诉设计师(图片模型),让设计师根据你的文字描述,进行成品图设计。

图生图功能:用图片告诉设计师的你的需求

你展示一张图,要求设计师用自己的风格,复制一份与图片相似的成品。

超线性回报 [译]
别花钱做头像了!Midjourney 垫图一键秒生成专属头像
09-15 AIGC 早报
08-10 AIGC 早报
07-25 AIGC早报
TAGGED:AIGCAI图像生成AI绘画
分享
Email 复制链接 打印
Share
上一篇 3分钟教你一键精准换脸,切勿违法犯罪!
下一篇 玩转 seed 指令,快速生成系列海报
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

AI 正在“扼杀”某些公司,却也让另一些公司蓬勃发展 ——让我们一起看看数据
强化 AI 学习
AI 作为引擎,人类作为方向盘
强化 AI 学习
DeepSeek 开源周第 6 天彩蛋 – DeepSeek-V3/R1 推理系统概览
强化 AI 学习
OpenAI GPT-4.5 系统卡
强化 AI 学习

相关推荐

自然

用 Midjourney 生成一座瀑布

OZ
Tags: AI绘画 Midjourney prompt 瀑布
3
Prompt 实战游戏

Midjourney 生成漂亮的动漫风格场景插画 Prompts 咒语提示词分享

OZ
Tags: AI绘画 Midjourney prompt 插画 游戏场景 背景美术
9
AI 工具热门资源

八个代替 Midjourney 的最佳选择!

OZ
Tags: AIGC AI工具 Midjourney
77
AI 绘画教程

ChatGPT + Midjourney 3分钟生成儿童绘本,帮你实现 AI 变现落地

lilizhu
Tags: AI绘本 AI绘画 Midjourney prompt 儿童绘本
1次查看
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码