Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 提高提示一致性的结构化生成方法 [译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Prompt 语宙 > 强化 AI 学习 > 提高提示一致性的结构化生成方法 [译]
强化 AI 学习

提高提示一致性的结构化生成方法 [译]

宝玉的分享
最近更新: 2025年4月21日 下午9:29
SHARE

最近,Hugging Face 的 Leaderboards and Evals 研究团队进行了一系列小实验,揭示了评估结果对提示格式微小变化的极高敏感性。对于特定任务,即使是很小的提示变动也会导致结果大不相同,这并非我们所希望看到的:相同信息输入的模型,其输出应保持一致性。

阅读目录
背景:对格式变更的敏感性评估如果我们将重点放在输出上,而不是输入上,以让结果对于细微的格式变更保持更高的一致性会怎样?实验设置说明:聚焦 n-shot 和示例顺序初探 GSM8K 1-8 次提示结论与未来展望

我们与 Dottxt 的合作伙伴探讨了这一问题,他们提出了一个新思路:是否有办法提升不同提示格式之间的一致性?

现在,让我们来详细探讨这一点。

背景:对格式变更的敏感性评估

随着研究的深入,我们愈发明显地认识到,大语言模型 (LLM) 的基准测试性能与提示的 格式 密切相关,甚至有些出人意料。为此,研究人员多年来已经尝试通过各种方法减少提示引起的性能变异。例如,在少样本情境下评估模型时,我们通过提供特定格式的示例来指导模型输出特定的响应模式;而在比较合理答案的对数似然时,我们则试图限定答案的可能性,避免自由生成。

排行榜与评估 团队通过分析著名的 MMLU 任务的八种不同提示格式(涉及任务的四个子集)展示了这一点。这些变化的提示分别应用于五种不同的模型,这些模型当时因其规模而被视为行业领先(SOTA),并且包括了不同的标记化方法和语言种类。使用对数概率来计算得分,最可能的答案被认为是正确的,这是多项选择任务中的经典评价标准。

通过查看 MMLU 的 global_facts 子集的第一个问题,我们可以更细致地分析这些不同的格式。

Question: “As of 2016, about what percentage of adults aged 18 years or older were overweight?”
Choices: [ "10%", "20%", "40%", "80%" ]
Correct choice: “40%”
Without choices in the prompt
As of 2016, about what percentage of adults aged 18 years or older were overweight? Q: As of 2016, about what percentage of adults aged 18 years or older were overweight?

A:
Question: As of 2016, about what percentage of adults aged 18 years or older were overweight?

Answer:
With choices in the prompt
Question: As of 2016, about what percentage of adults aged 18 years or older were overweight?

Choices:

10%
20%
40%
80%

Answer:
Question: As of 2016, about what percentage of adults aged 18 years or older were overweight?

Choices:

A. 10%
B. 20%
C. 40%
D. 80%

Answer:
Question: As of 2016, about what percentage of adults aged 18 years or older were overweight?

Choices:

(A) 10%
(B) 20%
(C) 40%
(D) 80%

Answer:
Log probs of 10%, 20%, 40%, 80% Log probs of 10%, 20%, 40%, 80% vs A, B, C, D Log probs of 10%, 20%, 40%, 80% vs (A), (B), (C), (D),

无论是仅包含问题,还是附加了指示我们正在进行问题与答案格式的标签,甚至是在提示中加入了选项,所有这些提示形式在评估中都仅对可能选择的对数似然进行比较。这些格式都广泛存在于评估文献中,每一行应包含几乎相同的信息量。然而,正如你所见,即使是这些表面上微不足道的变化,也能引起模型性能的显著波动!

每种模型的性能都显示出约 10% 的波动。其中最极端的例子是 Qwen1.5-7B 模型,其准确率在第七种提示格式下骤降至 22.9%,主要是因为标记器的问题,而在另一种提示下它曾达到高达 51.2% 的准确率。

独立来看,若排名始终一致,则得分的变动通常不会太引人注目。然而,正如下一张图所展示的,这些变化确实影响了排名:

虽然各模型之间的唯一区别在于格式,而非信息本身,但没有任何一个模型能在不同的提示条件下保持稳定的排名。这表明,如果 Gemma-7b 的研发者想证明他们的模型胜过 Mistral-7B-v0.1,他们完全可以通过选择合适的提示来达成这一目的。

鉴于几乎没有研究者会详细报告他们的评估方法,过去在模型报告中,研发者往往倾向于选择对自家模型最有利的设置进行展示(这也是为什么在一些论文中会出现一些异常的少样本测试数据)。

但这并非造成模型得分波动的唯一因素。

在进一步的实验中,我们对同一模型进行了评估,使用相同的提示格式,但在提示之前以不同的顺序打乱了少样本(例如,将 A/B/C/D/E 提示与 C/D/A/B/E 提提示对比)。以下图表显示了两种少样本顺序下模型得分的变动:对于同一个模型和提示组合,我们观察到高达 3 分的性能差异!

若我们想要准确评估并比较不同模型的性能,必须找到一种方法来克服这一挑战。

Sclar 等人在其研究*《量化语言模型对提示设计中伪特征的敏感性》*中提供了对这一问题的深入分析,并引入了 FormatSpread,这是一种软件工具,它通过应用多种格式变体来评估每个模型,并计算模型表现的方差。这种方法虽然计算成本高,但能更确信地评判哪些模型的表现更佳。

如果我们将重点放在输出上,而不是输入上,以让结果对于细微的格式变更保持更高的一致性会怎样?

尽管 FormatSpread 在使排行榜更公正和诚实方面做出了极大的努力,但作为大语言模型 (LLM) 的实际使用者,我们更加关注的是 提示的一致性。这意味着,我们希望找到某种方法来降低不同提示之间的差异性。

在 .txt,我们致力于改善和深入理解 结构化生成,即模型输出需要遵循特定结构的场景。我们的库,Outlines,使我们能够通过定义正则表达式或无上下文文法来规范 LLM 的输出,具体示例见下文。

我们最初使用结构化生成的用途是让与 LLM 的程序交互变得更加简单,确保以格式良好的 JSON 进行响应。然而,我们也连续发现了使用结构化生成带来的其他意想不到的好处。

在之前的研究中,我们证明了 结构化生成始终能够提升基准测试的性能,并在探究 JSON 结构化提示的过程中遇到了一些特别的案例。

通常情况下,即使使用非结构化生成,将提示格式转换为 JSON 同样能够提升几乎所有模型的基准测试表现。但对于 MetaMath-Tulpar-7b-v2-Slerp 来说,我们却发现当使用 JSON 格式的提示时,模型的准确性急剧下降。更令人吃惊的是,当采用 结构化生成 来限制模型输出时,性能的下降几乎可以忽略!

这使我们开始思考,结构化生成是否能够有效提升 提示的一致性。

实验设置说明:聚焦 n-shot 和示例顺序

在之前的实验中,Hugging Face 的 Leaderboard and Evals 研究团队探讨了提示格式的变更。对于即将进行的实验,我们将限制这些更改。

为了深入探索提示策略,我们计划仅调整提示的两个特性:

  1. 调整提示中使用的示例数量(n-shot)
  2. 调整这些示例的排列顺序(shot order,根据 shot seed 确定)

对于第二点,针对特定的 n-shot,我们仅重新排列相同的 n 个示例。这意味着,所有 1-shot 提示的重新排列都是一致的。这么做的目的是为了避免将提示的格式与其所包含的信息混为一谈。显然,一个 5-shot 的提示所含的信息量超过 1-shot 提示,但是每种 5-shot 提示的重新排列都涉及相同的示例,仅次序不同。

初探 GSM8K 1-8 次提示

为了深入探索这一现象,我们选择了两个性能相当但各具特色的模型,在 7B 参数级别进行比较:Mistral-7Bv0.1 与 Zephyr-7B-beta。我们的目的不仅是分析单次结果的差异,更重要的是观察它们 相对排名的变动。我们采用了 GSM8K 任务,它包含了一系列小学数学题。

以下是 GSM8K 1-次提示的标准格式,其中突出显示了结构。

为了确保答案格式正确,我们设计了一个正则表达式 (regular expression),用以匹配原始提示中的结构。下面的正则表达式定义了生成答案的格式:

正则表达式规定,模型需要进行 200 至 700 字符的逻辑推理,然后宣布“答案是”,接着是不超过 10 位的数字(首位不能为零)。

这里的一个细节是,控制结构的正则表达式与解析答案所用的略有不同,这种差异对性能有着微妙的影响。例如,正则表达式中的 {200,700} 规定了模型在作答前的思考长度。调整这些数字会影响模型的表现,这种调整我们称为“思维控制”,是一个我们期待进一步深入探讨的领域。

我们首次实验便是继续挖掘 GSM8K 数据集,并逐步扩展从 1 到 8 次的提示。实验结果如下图所示,非常令人瞩目。

这幅图展示了两个显著特点:在不同的 n-shot 设置中,性能差异明显减少,并且没有出现任何排名颠倒的情况(Mistral 始终领先于 Zephyr)。特别需要强调的是,单次提示的结构化任务表现明显优于非结构化任务,并与五次提示的表现相匹敌。这也开辟了我们称之为“提示效率”的新研究领域。

在我们的下一项实验中,我们尝试了不同的 n 次尝试及其顺序。通过设定随机种子来控制尝试顺序,保证了提示的前 n 次尝试是随机的,从而确保了不同种子之间的一致性。例如,对于 4 次尝试,其顺序如下所示:

种子 4 次尝试的顺序
42 2-1-3-0
1337 1-0-3-2
1981 3-2-0-1
1992 0-3-1-2
12345 1-0-2-3

进一步地,为了检验这些实验结果的可迁移性,我们选取了 研究生级别的谷歌证明问题与回答基准 (GPQA) 进行测试。GPQA 是一个挑战性较大的知识型多选题测试。以下是该测试的提示格式及其结构高亮示例。

特别是,我们使用了名为“钻石”的子集,这包含了经过精选和优化的高质量问题。在这 198 个问题中,我们预留了 8 个用于 n 次尝试的提示,但实际上只使用了前 5 个,余下的 190 个问题则用于评估。

如下图所示,我们展示了不同尝试种子和 n 次尝试的组合在两种模型上的准确性,分别对比了有无结构化生成的情况。

显而易见的一点是,结构化输出在各方面都优于非结构化输出。下面是对不同提示种子和 n 次尝试的平均结果进行的统计:

各种提示种子和 n 次尝试的平均结果

模型 非结构化 结构化
Mistral-7B-v0.1 0.2360 0.2935
Zephyr-7b-beta 0.2387 0.3048

此外,从整个数据表中我们可以看到,相比非结构化生成,结构化生成的方差明显减小了。

各种提示条件下结果的标准差

模型 非结构化 结构化
Mistral-7B-v0.1 0.0213 0.0202
Zephyr-7b-beta 0.0273 0.0180

这种减少的趋势与我们分析 GSM8K 在不同少样本测试下观察到的方差减少现象相似。

虽然预期性能的提升和方差的减少是非常理想的属性,但更关键的是要了解这一变化对模型排名的实际影响。在接下来的分析图中,我们比较了这两种生成方式,评定哪个模型表现更胜一筹:

  • A: Zephyr-7b-beta
  • B: Mistral-7B-v0.1
  • “-”: 平局

如图所示,采用结构化生成后,在确定哪个模型表现更好上的一致性得到了显著提升。这些发现与我们在多个少样本设置下使用 GSM8K 得到的结果是一致的。

结论与未来展望

尽管这些初步成果令人鼓舞,但我们还需要在更多的模型和任务中验证这些结果。目前的发现表明,结构化生成可能成为评估过程中不可或缺的一个环节。它不仅能提高模型的预期得分,还能在各种测试条件变化时保持结果的稳定性,这是一个值得进一步探究的重要发现。

使用大语言模型 (LLMs) 构建产品一年后的经验总结 (第二部分)[译]
什么是 GPT?通过图形化的方式来理解 Transformer 中的注意力机制 [译]
如果你觉得自己不够聪明,也缺乏才华,该如何行动 [译]
探讨人工智能对经济的影响 [译]
MemGPT:将大语言模型转变为操作系统 [译]
分享
Email 复制链接 打印
Share
上一篇 No Priors 第 61 集 | 采访 OpenAI 的 Sora 团队负责人 Aditya Ramesh、Tim Brooks 和 Bill Peebles [译]
下一篇 提示工程的基本理念以及如何将这些理念应用于提升大语言模型的性能 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

Deep Research 与知识价值:从信息搜索到价值重新定义
强化 AI 学习
什么是多模态大语言模型(MLLM)?[译]
强化 AI 学习
比尔·盖茨:特朗普、马斯克,以及我的神经多样性如何塑造了我 [译]
强化 AI 学习
阿兰·图灵的神秘“Delilah”项目:被遗失的故事 [译]
强化 AI 学习

相关推荐

强化 AI 学习

V-JEPA:迈向 Yann LeCun 先进机器智能(AMI)愿景的新里程碑 [译]

宝玉的分享
2001 年 3 月 6 日,纽约大学学生 Jennifer Huang 从 Napster 网站下载音乐。
强化 AI 学习

AI 的未来比你想象的更不稳定 [译]

宝玉的分享
强化 AI 学习

2024 年软件工程 KPIs 的问题及其解决之道 [译]

宝玉的分享
强化 AI 学习

先行动起来,然后逐步改进,最终做到最好 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码