Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: AIGC 起源历程
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > AIGC 资讯 > AIGC 起源历程
AIGC 资讯

AIGC 起源历程

OZ
最近更新: 2026年5月23日 下午6:50
AIGC
SHARE

AIGC发展历程和典型事件

虽然从严格意义上来说,1957年莱杰伦·希勒 (Lejaren Hiller) 和伦纳德·艾萨克森 (Leonard isaacson)完成了人类历史上第一支由计算机创作的音乐作品就可以看作是 AIGC 的开端,距今已有 65 年,这期间也不断有各种形式的生成模型、Al 生成作品出现。

阅读目录
  • AIGC发展历程和典型事件
    • 早期萌芽阶段(1950s-1990s)
    • 沉积积累阶段(1990s-2010s)
    • 快速发展阶段(2010s-至今)
  • 主流生成模型诞生历程
    • 基础的生成算法模型不断突破创新
    • 预训练模型引发了 AIGC技术能力的质变
    • 多模态技术推动了 AIGC 的内容多样性,让 AIGC 具有了更通用的能力

但是2022年才真正算是 AIGC 的爆发之年,人们看到了 AIGC 无限的创造潜力和未来应用可能性。目前,AIGC 技术沉淀、产业生态已初步形成,保持强劲发展和创新势头。

使用计算机生成内容的想法自上个世纪五十年代就已经出现,早期的尝试侧重于通过让计算机生成照片和音乐来模仿人类的创造力,生成的内容也无法达到高水平的真实感。结合人工智能的演进改革,AIGC的发展可以大致分为以下三个阶段:

早期萌芽阶段(1950s-1990s)

受限于科技水平,AIGC仅限于小范围实验。1957年,莱杰伦·希勒(Lejaren Hiller)和伦纳德·艾萨克森(Leonard Isaacson)通过将计算机程序中的控制变量改为音符,完成了历史上第一部由计算机创作的音乐作品——弦乐四重奏《依利亚克组曲(Illiac Suite)》。1966年,约瑟夫·韦岑鲍姆(Joseph Weizenbaum)和肯尼斯·科尔比(Kenneth Colbv)共同开发了世界上第一个机器人“伊莉莎(Eliza)”,其通过关键字扫描和重组来完成交互式任务。80年代中期,IBM基于隐马尔可夫链模型创造了语音控制打字机“坦戈拉(Tangora)”,能够处理两万个单词。

世界上第一个机器人“伊莉莎(Eliza)”

沉积积累阶段(1990s-2010s)

AIGC从实验性向实用性逐渐转变。深度学习算法、图形处理单元(GPU)、张量处理器(TPU)和训练数据规模等都取得了重大突破,受到算法瓶颈的限制,效果有待提升。2007 年,纽约大学人工智能研究员罗斯·古德温(Ross Goodwin)装配的人工智能系统通过对公路旅行中的所见所闻进行记录和感知,撰写出世界上第一部完全由人工智能创作的小说《1 The Road》。2012年,微软公开展示了一个全自动同声传译系统,通过深度神经网络(DNN)可以自动将英文演讲者的内容通过语音识别、语言翻译、语音合成等技术生成中文语音。

世界上第一部完全由人工智能创作的小说《1 The Road》

快速发展阶段(2010s-至今)

深度学习模型不断迭代,AIGC取得突破性进展。尤其在2022年,算法获得井喷式发展,底层技术的突破也使得AIGC商业落地成为可能。下面列举了一些迄今为止具有代表性的算法模型,其中主要集中在AI绘画领域:

  • 2014年6月,生成式对抗网络(Generative Adversarial Network,GAN)被提出。
  • 2021年2月,openAI推出了CLIP(Contrastive Language-Image Pre-Training)多模态预训练模型。
  • 2022年,扩散模型Diffusion Model逐渐替代GAN。

上述三个算法是当前AIGC的技术核心,下述算法模型大部分都是以此为基础。

  • 2018年12月,NVIDIA推出StyIeGAN ,可以自动生成高分辨率图片。目前已升级到第四代模型。
  • 2019年7月,DeepMind推出DVD-GAN ,可以生成连续视频。
  • 2021年1月,OpenAI 推出DALL-E,是首个引起公众广泛关注的文本生成图像的模型之一。
  • 2022年2月,开源AI绘画工具Disco Diffusion发布。
  • 2022年3月,Meta推出Make-A-Scene这一AI图像生成工具。
  • 2022年4月,OpenAI 推出了DALL-E-2,在图像分辨率、真实感和新功能上进行了升级。
  • 2022年4月,AI绘画工具MidJourney发布。
  • 2022年5月,Google推出Imagen,同样是文本生成图像的模型。
  • 2022年6月,Google推出parti,与Imagen功能相同,但在模型算法、模型参数和图像效果等方面做了升级。
  • 2022年7月,开源AI绘画工具Stable Diffusion发布。
  • 2022年9月,Meta推出Make-A-Video,可以从文字生成视频。
  • 2022年10月,Google提出Imagen video,同样是文字生成视频的模型。
  • 2022年11月,Stable Diffusion 2.0发布,在模型算法、图像质量和内容过滤等方面做了升级。
  • 2022年11月,openAI推出 AI 聊天机器人chatGPT。

主流生成模型诞生历程

生成算法、预训练模型、多模态等AI技术累积融合,催生了AIGC 的大爆发。

基础的生成算法模型不断突破创新

2014年,伊恩·古德费洛(lan Goodfellow)提出的生成对抗网络(Generative Adversarial Network,GAN)成为早期最为著名的生成模型。

GAN 使用合作的零和博弈框架来学习,被广泛用于生成图像、视频、语音和三维物体模型等。GAN 也产生了许多流行的架构或变种,如DCGAN,StyleGAN,BigGAN,StackGAN.Pix2pix,Age-cGAN,CycleGAN、对抗自编码器(Adversarial Autoencoders,AAE)、对抗推断学习(Adversarially Learned Inference,ALI)等。

随后,Transformer、基于流的生成模型(Flow-based models)、扩散模型(Diffusion Model)等深度学习的生成算法相继涌现。其中,Transformer 模型是一种采用自注意力机制的深度学习模型,这一机制可以按照输入数据各部分重要性的不同而分配不同的权重,可以用在自然语言处理(NLP)、计算机视觉(CV)领域应用。后来出现的 BERT、GPT-3、LaMDA等预训练模型都是基于Transformer 模型建立的。

而扩散模型(Diffusion Mode)是受非平衡热力学的启发,定义一个扩散步骤的马尔可夫链,逐渐向数据添加随机噪声,然后学习逆扩散过程,从噪声中构建所需的数据样本。扩散模型最初设计用于去除图像中的噪声。随着降噪系统的训练时间越来越长并且越来越好,它们最终可以从纯噪声作为唯一输入生成逼直的图片。

然而,从最优化模型性能的角度出发,扩散模型相对 GAN 来说具有更加灵活的模型架构和精确的对数似然计算,已经取代 GAN 成为最先进的图像生成器。2021年6月,OpenAl 发表论文已经明确了这个结论和发展趋势。

预训练模型引发了 AIGC技术能力的质变

虽然过去各类生成模型层出不穷,但是使用门槛高、训练成本高、内容生成简单和质量偏低,远远不能满足真实内容消费场景中的灵活多变、高精度、高质量等需求。预训练模型的出现引发了 AIGC技术能力的质变,以上的诸多落地问题得到了解决。

随着 2018 年谷歌发布基于 Transformer 机器学习方法的自然语言处理预训练模型 BERT,人工智能领域进入了大炼模型参数的预训练模型时代。AI预训练模型,又称为大模型、基础模型(foundation mode),即基于大量数据(通常使用大规模自我监督学习)训练的、拥有巨量参数的模型,可以适应广泛的下游任务。这些模型基于迁移学习的思想和深度学习的最新进展,以及大规模应用的计算机系统,展现了令人惊讶的涌现能力,并显著提高各种下游任务的性能。”鉴于这种潜力,预训练模型成为 AI技术发展的范式变革,许多跨领域的Al系统将直接建立在预训练模型上。具体到 AIGC 领域,AI 预训练模型可以实现多任务、多语言、多方式,在各种内容的生成上将扮演关键角色。按照基本类型分类,预训练模型包括:(1)自然语言处理(NLP)预训练模型,如谷歌的 LaMDA和 PaLM、Open AI的 GPT 系列:(2)计算机视觉(CV)预训练模型,如微软的 Florence:(3)多模态预训练模型,即融合文字、图片、音视频等多种内容形式。

多模态技术推动了 AIGC 的内容多样性,让 AIGC 具有了更通用的能力

预训练模型更具通用性,成为多才多艺、多面手的 Al模型,主要得益于多模型技术(multimodal technol-ogy)的使用,即多模态表示图像、声音、语言等融合的机器学习。

2021年,OpenAI团队将跨模态深度学习模型CLIP(Contrastive Lanquaqe-Image Pre-Training,以下简称“CLIP”)进行开源。CLIP 模型能够将文字和图像进行关联,比如将文字“狗”和狗的图像进行关联,并且关联的特征非常丰富。因此,CLIP 模型具备两个优势:一方面同时进行自然语言理解和计算机视觉分析,实现图像和文本匹配。另一方面为了有足够多标记好的“文本-图像”进行训练,CLIP 模型广泛利用互联网上的图片,这些图片一般都带有各种文本描述,成为 CLIP 天然的训练样本。

据统计,CLIP 模型搜集了网络上超过 40 亿个“文本-图像”训练数据,这为后续 AIGC 尤其是输入文本生成图像/视频应用的落地奠定了基础。在多模态技术的支持下,目前预训练模型已经从早期单一的 NLP或CV模型,发展到现在语言文字、图形图像、音视频等多模态、跨模态模型。

2021年3月OpenAl发布Al绘画产品DALL·E,只需要输入一句文字,DALL·E 就能理解并自动生成一幅意思相符的图像,且该图像是独一无二的。DALL·E 背后的关键技术即是 CLIP。CLIP 让文字与图片两个模态找到能够对话的交界点,成为 DALL·E、DALL·E2.0、Stable Diffusion 等突破性 AIGC成果的基石。总的来看,AIGC 在 2022 年的爆发,主要是得益于深度学习模型方面的技术创新。不断创新的生成算法、预训练模型、多模态等技术融合带来了 AIGC技术变革,拥有通用性、基础性、多模态、参数多、训练数据量大、生成内容高质稳定等特征的 AIGC模型成为了自动化内容生产的“工厂”和“流水线”。

OpenClacky – 李亚飞团队开源的低成本 AI Agent
HappyHorse AI视频生成模型空降盲测榜首:8步去噪+40层单流Transformer,断层领先60分背后的黑科技
Archon – 开源 AI 智能体框架,自主生成代码构建 AI 智能体
优必选开源具身智能大模型Thinker:4B参数9项基准全球第一,工业场景准确率99.99%
ShotAdapter – Adobe联合UIUC推出的多镜头视频生成框架
TAGGED:AIGC
分享
Email 复制链接 打印
Share
上一篇 09-15 AIGC 早报
下一篇 用 Midjourney 设计 Logo 已经非常便捷,一起来看看 Prompt 怎么写
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

浙大华为联手发布DeepSeek-R1-Safe:基于昇腾的安全大模型,开源权重防御越狱攻击
AI 工具 AIGC 资讯
IBM发布258M参数轻量级视觉语言模型:高效文档转换,支持多语言与复杂版式
AI 工具 AIGC 资讯
美团5600亿参数推理模型LongCat-Flash-Thinking:开源MoE架构引领AI Agent新范式
AI 工具 AIGC 资讯
网易清华联手!LatticeWorld:AI文本一键生成UE5级3D世界,效率飙升90倍
AI 工具 AIGC 资讯

相关推荐

AIGC 资讯

LineArt – 吉林大学等机构推出的设计绘图外观迁移框架

站外新闻
AI 工具AIGC 资讯

谷歌Gemini 3.1 Flash-Lite发布:性价比碾压GPT-5 mini,多模态AI如何重塑开发范式?

站外新闻
AIGC Gemini 多模态AI 谷歌
AIGC 资讯

Gemma 3 – 谷歌最新推出的开源多模态 AI 模型

站外新闻
AI 工具AIGC 资讯

联想天禧AI Claw:开箱即用的7×24小时AI智能体助理,多端协同引爆效率革命

站外新闻
AI智能体 OpenClaw 多Agent协作 端云混合 联想
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI模型 AI绘画 AI编程 AI编程助手 AI编程模型 AI视频生成 AI音乐生成 Anthropic chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.4 GPT-5.5 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 NVIDIA openai OpenClaw prompt SWE-Bench xAI 世界模型 丛林 人工智能 人物 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 大模型 大模型应用 大模型推理 大语言模型 字节跳动 家居 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 教程 数字人 文本转语音 早报 智谱AI 月之暗面 本地AI 清华大学 生成式AI 知识管理 科大讯飞 端侧AI 端侧部署 美团 腾讯混元 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 赛博朋克 通义千问 阶跃星辰 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.