Prompt 语宙Prompt 语宙
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 涌现能力的深刻理解:基础现象、幻觉,或两者皆有? [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • 语宙 AI 导航
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • 出海数字营销宝典
  • 社区
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 涌现能力的深刻理解:基础现象、幻觉,或两者皆有? [译]
强化 AI 学习

涌现能力的深刻理解:基础现象、幻觉,或两者皆有? [译]

宝玉的分享
最近更新: 2026年5月23日 下午6:30
SHARE

在语言模型的发展中,我们见证了规模的强大力量。Radford 等人在最初的 GPT 论文 中指出,模型在训练过程的某个时刻突然“习得”了对句子 X 进行情感分析的能力,能预测它更可能是“非常消极”或“非常积极”的后续内容。随着模型的训练,其零样本 (zero-shot) 性能出现了显著的“飞跃”。当然,如 Radford 等人所述,这需要一个“成本高昂的预训练步骤——在 8 个 GPU 上训练 1 个月”。😊

图 1: 图片改编自 OpenAI GPT 博客文章 (2018 年)。

GPT-2 论文 揭示了规模增大的益处。正如论文所述,GPT-2 是对 GPT 的扩展版本,拥有大约十倍的参数和数据量。这种规模的扩大带来了质的飞跃。尤其是不仅提高了“零样本”性能,还能生成较长的连贯文本(见下文)。当然,GPT-3 和 GPT-4 进一步证明了规模的重要性。

图 2: GPT-2 根据 Open-AI 博客文章生成的文本。

图 3: GPT 3.5-turbo-instruct 根据同一文本生成的内容。

图 4: GPT-4 对于撰写同一篇演讲的提示作出的回应。

Wei et al. 的研究表明,随着训练规模的增大,“涌现的能力”是常见现象。这种新能力的特征是:

  • 当我们按训练计算量(对数刻度)绘制性能曲线时,最初的阶段性能表现平平,但在某个临界点后,性能会突然大幅提升。
  • 我们目前无法预先准确预测这个临界点的出现时间。

图 5: 出自 Ganguli et al 关于“可预测性与意外”研究的图 2。左侧面板基于 GPT-3 论文,中间面板基于 Gopher 论文,右侧面板基于 Nye et al, 21。

“Grokking 文章”(作者:Power et al)也展示了在代数任务的合成环境中,从随机猜测到完美解决问题的显著进步。

图 6: 一种深度网络在学习模块化除法时,展现了从基本水平到完美准确度的显著提升。更重要的是,这种转变在测试精度上的出现比训练精度要晚得多。详见 Power et al 的图 1。

涌现能力真的是幻觉吗?

近期,Schaffer, Miranda, 和 Koyejo 的一篇论文中提出了这样一个观点:涌现能力可能只是一种错觉。他们指出,如果换一个评估任务表现的标准,我们可能会看到一个平缓且可预期的进步,而不是之前认为的突兀和难以预测的飞跃。

图 7:根据输出长度来衡量两个四位数相加的表现,分别采用(左侧)准确性:完全正确答案的比率,和(右侧)编辑距离:与正确答案的接近程度。右侧图表中的“软”指标展示出了一种比左侧的“硬”指标更为逐步和可预测的进展。摘自 Schaeffer et al, 2023 的图 3。

我们自己的论文(与 Edelman, Goel, Kakade, Malach, 和 Zhang 合作)也展现了类似的现象,即在学习奇偶性任务时也观察到这样的情况。而 Nanda et al 则使用了机械可解释性方法,为“理解”这一概念提出了一个“进程度量”。

图 8: 改编自 Barak et al. 22 的图 3。尽管错误率和损失在图中突然下降,但在学习奇偶性问题时,相关特征权重的变化却更为渐进。

可以通过以下类比来理解这一现象:想象有人正在学习跳过一个一米高的跨栏。

图 9: ChatGPT (DALL-E) 绘制的漫画,展现了一位志在成为跨栏高手的运动员。

当这位梦想成为优秀运动员的人不断训练时,他们的跳跃高度理应不断提高。但如果我们通过他们越过栏杆的可能性来评估他们的进步,就会发现一种“急剧转变”或“新技能突显”的趋势。

图 10: 运动员跳跃的高度随着训练量的增加而逐渐提高,但越过一米高栏杆的概率却会出现明显的跳跃式增长。

在他们引人入胜的论文中,Schaffer、Miranda 和 Koyejo 展示了如何通过改变评估标准,让很多看似突然出现的技能曲线消失不见。那么,这是否意味着所有新技能的显现都只是错觉呢?我认为并非如此。

这是因为,在现实世界中的许多任务,尤其是涉及推理的任务,我们需要同时应对多重挑战。特别是在构建一条连续的“思考链”时,我们必须依次解决一系列问题,一旦其中任何一环出错,都可能导致整个推理偏离正确轨道。Schaffer 等人在论文的第二节中指出,当成功的条件变为多个因素共同满足(即多事件的“并且”关系)时,成功的概率曲线会变得更加陡峭。

图 11: 当单枚硬币出现“正面”的概率增加时,所有 k 枚硬币同时出现“正面”的概率急剧提高。(上图:X 轴代表单枚硬币出现正面的概率,下图:X 轴为单枚硬币概率的对数值,即 (p,1-p) 与 (1,0) 的负交叉熵损失)

在很多实际任务中,我们往往不知道如何把一个复杂的任务拆解成一系列简单、可预测的小部分,特别是在我们还未解决这个任务之前。因此,即便我们能精确地预测一个用 N flops 训练出的模型的损失值,我们也可能无法预测这个模型能解决哪些任务,尤其是那些超出仅需 N/10 flops 的模型所能解决的任务。

聊天机器人性能革新:探索三大 RAG 性能提升策略 [译]
第 1 章:AI 研发 —— 2024 年人工智能指数报告 [译]
网络的奇妙世界 [译]
在 RAG 流程中提高检索效果:融合传统关键词与现代向量搜索的混合式搜索技术 [译]
整合人工智能的两大策略 [译]
分享
Email 复制链接 打印
Share
上一篇 一种名为“从少到多提示”的最新提示架构。 [1] 是时候开始讨论大语言模型中的提示架构了吗?[译]
下一篇 机器人流程图 GPT-4 Turbo 通过统一差异 (unified diffs) 更有效率地编程 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

MiniMax-M1开源发布:4560亿参数MoE架构,百万上下文推理模型性价比之王
AI 工具 AIGC 资讯
FlowDirector:无需训练,一文看懂西湖&中南大学如何用ODE革新AI视频编辑,精准指令直达
AI 工具 AIGC 资讯
字节跳动DreamActor-H1:DiT框架革新电商视频生成,3D动作引导+身份保留引领AIGC商业化
AI 工具
Kimi-Dev 72B 开源代码模型登顶SWE-bench!月之暗面发布,超越DeepSeek-R1,编程能力堪比闭源模型
AI 工具 AIGC 资讯

相关推荐

强化 AI 学习

Sora:初体验 [译]

宝玉的分享
强化 AI 学习

大部分 AI 创业公司的未来不乐观 [译]

宝玉的分享
It hurt itself in it
强化 AI 学习

风险管理不是项目管理 [译]

宝玉的分享
参见说明
强化 AI 学习

RAPTOR:树状组织的递归抽象检索技术 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

Agent AI AI Agent AIGC AI大模型 AI安全 AI工具 AI智能体 AI绘画 AI编程 AI编程助手 AI编程工具 AI视频生成 AI音乐生成 Anthropic Cerebras WSE-3 chatgpt Claude Claude Code DeepSeek Gemini GPT-5.3 Instant GPT-5.3-Codex-Spark GPT-5.4 MCP协议 meta Midjourney MiniMax Mistral AI MoE架构 openai prompt Qwen3 RAG SWE-Bench xAI 上海人工智能实验室 世界模型 人工智能 人物 代码生成 企业级AI 全模态大模型 具身智能 命令行工具 图像生成 图像生成模型 多智能体 多模态 多模态AI 多模态大模型 多模态模型 大模型 大模型应用 大语言模型 字节跳动 小红书 展台 开源 开源AI 开源AI工具 开源大模型 开源工具 开源平台 开源框架 开源模型 开源项目 强化学习 微软 扩散模型 推理模型 教程 数字人 文本转语音 早报 昆仑万维 智谱AI 月之暗面 本地部署 清华大学 生成式AI 美团 腾讯 腾讯混元 自然语言处理 英伟达 蚂蚁集团 视觉语言模型 视频生成 视频生成模型 语音合成 谷歌 谷歌AI 谷歌DeepMind 通义千问 阶跃星辰 阿里巴巴 阿里通义 面壁智能 香港大学
Prompt 语宙Prompt 语宙
Follow US
© 2009-2026 Prompt 语宙. Paooo.com. All Rights Reserved.