Prompt 语宙Prompt 语宙
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
Search
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2024 Prompt 语宙. HalfPX. All Rights Reserved.
阅读: 深入分析 GPTs 在机器翻译中的上下文学习[译]
Share
登陆
通知 阅读更多
Font Resizer字体
Font Resizer字体
Prompt 语宙Prompt 语宙
Search
  • 首页
  • AIGC 资讯
    • AIGC 早报Hot
    • 最新趋势
    • AI 工具
    • 热门资源
  • AI 绘图
    • Prompt 实战
    • AI 绘画教程
    • 模型精选
  • 强化 AI 学习
  • AI 图库
    • 人物
    • 展台场景
    • Banner
    • 游戏
    • 动物
    • 食物
    • 自然
    • 背景
    • 海报
    • 建筑
    • 室内设计
  • Remaker AI
    • Free Image Splitter
    • AIGC 工具
    • Prompt 咒语生成器
  • 社区
    • 知识星球
    • 公众号
已有帐户? 登陆
  • Contact
  • Blog
  • Complaint
  • Advertise
© 2023 Prompt 语宙. Paooo.com. All Rights Reserved.
表 1:我们对四种不同的扰动方式进行了研究。这些扰动方式主要应用在抽象的源 - 目标示例序列上。有趣的是,尽管
Prompt 语宙 > 强化 AI 学习 > 深入分析 GPTs 在机器翻译中的上下文学习[译]
强化 AI 学习

深入分析 GPTs 在机器翻译中的上下文学习[译]

宝玉的分享
最近更新: 2024年2月6日 下午6:16
SHARE

摘要

最近,人们在使用如 GPT-3 这样的大语言模型进行机器翻译时,主要关注如何选择少量的示例进行提示。在这项研究中,我们对一些高质量的示例进行了微调,来深入探讨在实际翻译中,这些示例是如何起作用的。我们的发现是,当我们对输入和输出进行不同的微调时,会得到非常不同的翻译效果。特别是,改变输入部分对翻译的影响非常小,但是改变输出部分可能会大大降低翻译的质量。这意味着,翻译的输出内容是决定翻译质量的关键因素。基于这一发现,我们提出了一种新方法,叫做 Zero-Shot-Context,它可以在没有任何示例的情况下,自动提高翻译的质量。我们的实验结果显示,使用这种方法,GPT-3 的翻译效果得到了明显的提升,甚至可以与有示例提示的翻译相媲美。

阅读目录
摘要1 引言2 相关研究3 为何示范很重要4 针对翻译的无监督学习5 结论6 存在的问题

1 引言

近期,学界对于大语言模型 (LLMs) 的示范准确性在引导过程中的重要性提出质疑 (Min et al., 2022)。有研究指出,LLMs 的实际应用潜力可能远超我们现在所观察到的 (Min et al., 2022; Kojima et al., 2022)。要最大化这一潜力,我们需要更好地理解示范的各个属性对任务性能的影响,并模拟这种学习环境。本研究主要关注了如何通过上下文学习来提高机器翻译 (MT) 的质量。我们并不是要找出最佳的学习示例,这一话题已经被深入探讨,并为 LLMs 提供了更好的翻译建议 (Vilar et al., 2022; Agrawal et al., 2022)。我们的主要贡献有:

  1. 我们深入研究了 GPT 系列 LLMs 中的示范属性,尤其关注了输入与输出之间的关系。研究结果显示,目标文本的内容对学习过程影响最大,而原始文本则影响较小。

  2. 基于以上发现,我们提出了一种新方法 Zero-ShotContext 提示,能够更高效地提供学习信号,而不依赖于传统的输入 – 输出示例。这种方法极大提升了 GPT-3 的性能,使其能够与其他方法相媲美。

2 相关研究

我们的研究涉及到两个主要方向:LLMs 的翻译提示技术以及上下文学习的分析。下面,我们将深入探讨这两个方向的相关研究。

LLM 在机器翻译中的提示:LLM 在少量示例提示的情况下,已经达到了与最前沿技术相媲美的翻译效果 (Hendy et al., 2023; Lin et al., 2022)。在机器翻译的提示技术中,大部分研究都集中于选择哪些实例作为提示的示例。Vilar 等人 (2022) 对 PaLM 进行了实验 (Chowdhery et al., 2022),发现示例的质量是影响少量示例提示效果的关键。Agrawal 等人 (2022) 对 XGLM 进行了研究 (Lin et al., 2021),得出了翻译的质量和示例的领域都至关重要。与此不同,我们的研究目标是探索如何改变高质量、领域相关的示例,以更好地理解示例属性在翻译中的上下文学习效果。

表 1:我们对四种不同的扰动方式进行了研究。这些扰动方式主要应用在抽象的源 - 目标示例序列上。有趣的是,尽管
表 1:我们对四种不同的扰动方式进行了研究。这些扰动方式主要应用在抽象的源 – 目标示例序列上。有趣的是,尽管 “Jumbled Source” 和 “Jumbled Target” 都对源 – 目标的关系产生了影响,但它们在实际的学习过程中产生的效果是不同的。

表 1:我们对四种不同的扰动方式进行了研究。这些扰动方式主要应用在抽象的源 – 目标示例序列上。有趣的是,尽管 “Jumbled Source” 和 “Jumbled Target” 都对源 – 目标的关系产生了影响,但它们在实际的学习过程中产生的效果是不同的。

探索上下文学习:对上下文学习进行深入探索是目前的研究热点 (Xie et al., 2021; von Oswald et al., 2022; Akyürek et al., 2022; Dai et al., 2022)。Min 等人 (2022) 提到,在开放式分类任务中,示例中的标签准确性并不那么重要,但 Yoo 等人 (2022) 指出否定的标签确实很关键。与此同时,我们的实验在任务选择和示例扰动方式上与上述研究有所不同,我们专注于翻译这一任务,它有着复杂的输出空间,并探索了不同的示例扰动方法。

3 为何示范很重要

当我们要求 LLMs 完成特定任务时,它们会根据示范(与任务相关的示例)和测试输入来给出答案。我们的观点与 Min 等人 (2022) 保持一致,认为翻译任务的示范有四个重要方面:输入与输出的关系、输入的内容、输出的内容以及格式。为了更好地理解这些,我们研究了如 GPT3 这样的 LLMs 在翻译时如何使用示范。我们对示范的内容、输出内容以及它们之间的关系进行了对比。

模型:我们主要关注 text-davinci-002,这是当前公认的最强大的 LLM 模型 (Liang 等,2022)。同时,我们也探讨了其他几个版本,如 text-davinci-001、text-curie-001 以及较新的 text-davinci-003。

数据来源:我们选择了 WMT’21 的新闻翻译数据 (Barrault 等,2021) 进行实验,涵盖了英德、德英、英俄和俄英四种语言组合。在这些实验中,text-davinci-002 的表现与 WMT-21 的最佳模型相当 (Tran 等,2021),只需要八个示范。在 Table 2 中,我们列出了两种模型在 8 个示范的测试结果,而在每个测试集中,我们都选择了 100 个样本来进行特别的实验。

表 2:在 WMT-21 的测试集上,我们对 COMET-QE 的得分进行了评估。无论是 WMT-21 获胜的系统(由 Tran 等人于 2021 年提出)还是 GPT,其翻译都是通过一种叫做贪婪解码的方法获得的。
表 2:在 WMT-21 的测试集上,我们对 COMET-QE 的得分进行了评估。无论是 WMT-21 获胜的系统(由 Tran 等人于 2021 年提出)还是 GPT,其翻译都是通过一种叫做贪婪解码的方法获得的。

表 2:在 WMT-21 的测试集上,我们对 COMET-QE 的得分进行了评估。无论是 WMT-21 获胜的系统(由 Tran 等人于 2021 年提出)还是 GPT,其翻译都是通过一种叫做贪婪解码的方法获得的。

如何提示:Vilar 等人 (2022) 认为,对于少数提示的翻译任务,格式选择并不重要。因此,我们采用了一个常用的格式,即 [Source]:ABC (n) [Target]:DEF,其中 Source 和 Target 分别代表不同的语言。同时,我们还选取了一些高质量的示范对,这些示范对都来自于开发数据集。

评估方式:为了避免在评估时受到参考资料的偏见影响,我们使用了一种先进的评估方法 COMET-QE,这种方法被证明在评估翻译质量时非常有效。但这个方法有个小问题,如果翻译的内容和原文是同一种语言,它会认为翻译是正确的。为了解决这个问题,我们使用了一个工具来检测翻译的语言,如果翻译和原文是同一种语言,我们就认为这个翻译是错误的。

实验 1:我们对原文进行了四种修改,并看看这些修改会对翻译产生什么影响。我们把原文和翻译的对应关系打乱、把原文的词序打乱、把翻译的词序打乱、以及把翻译的词序完全反过来。

图 1:对 WMT-21 英德测试集进行的扰动实验。发现源语言和目标语言的扰动影响是不对称的,尽管两种情况下的输入 - 输出关系都受到很大的影响。
图 1:对 WMT-21 英德测试集进行的扰动实验。发现源语言和目标语言的扰动影响是不对称的,尽管两种情况下的输入 – 输出关系都受到很大的影响。

图 1:对 WMT-21 英德测试集进行的扰动实验。发现源语言和目标语言的扰动影响是不对称的,尽管两种情况下的输入 – 输出关系都受到很大的影响。

实验结果:我们发现,打乱原文和翻译的对应关系,以及打乱翻译的词序,都会对翻译质量产生很大的影响。尤其是打乱翻译的词序,这种影响随着我们修改的次数增加而增大。但是,如果只是打乱原文的词序,对翻译的质量几乎没有影响。

实验 2:我们又做了一个类似的实验,但这次我们用了四种不同的语言对。

图 1:对 WMT-21 英德测试集进行的扰动实验。发现源语言和目标语言的扰动影响是不对称的,尽管两种情况下的输入 - 输出关系都受到很大的影响。
图 2:在 WMT’21 的多种语言组合中,针对 text-davinci-002 进行的扰动实验,实验在 k=8 的少量提示下进行。结果显示,无论是哪种语言组合,源和目标的扰动效应都表现出不对称性。

图 2:在 WMT’21 的多种语言组合中,针对 text-davinci-002 进行的扰动实验,实验在 k=8 的少量提示下进行。结果显示,无论是哪种语言组合,源和目标的扰动效应都表现出不对称性。

实验结果:我们发现,不同的语言对对翻译质量的影响趋势都是类似的。打乱原文的词序对翻译的影响很小,但打乱翻译的词序会大大降低翻译质量。

实验 3:我们再次进行了实验,这次固定 En-De 语言对,但更改了模型。在图 3 中,我们选择了 GPT 系列中的其他三个模型,即 textcurie-001、text-davinci-002 和 text-davinci-003,进行了实验。

结果展示:不同的模型中,JS 和 JT 对翻译效果的影响是不均衡的,这与之前的实验结果相吻合。

深入分析:与 Min 等人在 2022 年的研究相比,他们认为输入和输出之间的随机关系会带来更好的效果,而我们的发现则不同。我们注意到,根据不同的干扰类型,翻译效果可能大相径庭。为了解释这一现象,我们推测这种差异可能是因为翻译中的搜索过程更为复杂,需要更明确的输出指导。

图 1:对 WMT-21 英德测试集进行的扰动实验。发现源语言和目标语言的扰动影响是不对称的,尽管两种情况下的输入 - 输出关系都受到很大的影响。
图 3:在 WMT-21 英德测试集中,针对不同的 GPT-3 模型进行的扰动实验。实验结果显示,不同模型中的源和目标扰动效应都表现出不对称性,这意味着 in-context 学习机制具有这一固有特性。

图 3:在 WMT-21 英德测试集中,针对不同的 GPT-3 模型进行的扰动实验。实验结果显示,不同模型中的源和目标扰动效应都表现出不对称性,这意味着 in-context 学习机制具有这一固有特性。

此外,图 2 & 3 的数据还表明,源和目标之间的关系在示例中也很关键,这与以前的研究结果一致。但我们发现,即使是源词的顺序对于翻译来说也不是那么重要,这意味着只需要大致上的输入文本模式就能有效地学习。

普及性分析:我们还测试了 GPT 系列中的两个新模型 gpt-3.5-turbo-instruct 和 gpt-3.5-turbo-instruct-0914。无论是哪种评估方式,我们的研究结果都相当稳健。

研究意义:我们的研究表明,在翻译学习中,输出数据可能是最关键的部分。这也为未来的研究指明了方向,即目标数据可能比原始数据更有研究价值。对于这些问题,我们期待未来的进一步探讨。

4 针对翻译的无监督学习

我们之前提到,当涉及到上下文学习翻译时,输出文本的分布是最重要的。在这里,我们要分享一个特别的方法,可以在没有任何前置条件的情况下进行学习。这次的实验和第 3 部分恰好相反:我们在这里加入了有助于无监督学习的信号,而不是像之前那样移除。我们介绍了一个叫作“无监督背景”的新技巧,它让 GPT-3 的无监督学习效果有了显著的提升,与少示例学习的效果相当。当然,这只是无监督学习中的一种尝试,未来可能会有更多方法来提高效果,例如更针对性地进行翻译任务调整。但现在,我们主要关注这个新的尝试和它的效果。

图 4:Zero-Shot-Context 的设计图:这一设计可以自动为 LLM 提供关于输出文本特性的学习信息,仿真了最为关键的演示特点。
图 4:Zero-Shot-Context 的设计图:这一设计可以自动为 LLM 提供关于输出文本特性的学习信息,仿真了最为关键的演示特点。

图 4:Zero-Shot-Context 的设计图:这一设计可以自动为 LLM 提供关于输出文本特性的学习信息,仿真了最为关键的演示特点。

新方法简介:我们推出了一个全新的方法,叫做 Zero-Shot-Context(图 4),它可以自动地从 LLM 中获取学习信号,并利用这个信号进行翻译。

表 3:在 WMT-21 的英 - 德测试中,我们发现
表 3:在 WMT-21 的英 – 德测试中,我们发现 “Zero-Shot-Context” 相对于传统的 “ZeroShot” 翻译表现得更好,其质量得分甚至提高了 5 个 QE 点。

表 3:在 WMT-21 的英 – 德测试中,我们发现 “Zero-Shot-Context” 相对于传统的 “ZeroShot” 翻译表现得更好,其质量得分甚至提高了 5 个 QE 点。

表 4:在 WMT-21 的英 - 俄测试中,
表 4:在 WMT-21 的英 – 俄测试中,”Zero-Shot-Context” 不仅明显优于 “ZeroShot”,甚至还能与少数的优秀翻译相媲美。

表 4:在 WMT-21 的英 – 俄测试中,”Zero-Shot-Context” 不仅明显优于 “ZeroShot”,甚至还能与少数的优秀翻译相媲美。

实验数据:我们在表 3 里展示了与传统方法的比较,包括无监督提示和少示例提示(k=1, 2, 4),这些数据都是从开发集中选取的高品质样本。从 En-De WMT-21 的测试数据和 text-davinci-002 的对比中可以看出,Zero-Shot-Context 显著提高了翻译的质量,这一点从 COMETQE (CQE) 的评分中可以得到证实。但要注意,传统的 BLEU 和 ChrF 评估方法并没有显示出这一点,这也是文献中所提到的一些评估方法的局限性 (Freitag 等,2022)。而表 4 则是在 WMT-21 En-Ru 测试集上的数据对比。

关于无需预先学习的背景的实验:我们尝试了一个实验:从开发数据中随机选择一句话,然后用这句话替换现有的上下文生成步骤。想象一下,一个高质量的相关句子应该能够帮助我们更好地理解输出的内容。实验结果证明,即使使用随机句子,我们的方法在 WMT-21 En-De 测试集上达到了 36.10 的评分,而在 WMT-21 En-Ru 测试集上达到了 37.86。但这些成绩还不如 Zero-Shot-Context,说明上下文还是很关键。

深入探究:我们发现,使用 GPT-3 进行无预先知识的翻译可能比我们预期的要好。并且,我们不必手动选择例子,直接使用计算就可以提高翻译的质量。例如,我们发现一个简单的输出信号就可以提高 text-davinci-002 的翻译质量。有研究指出,这种方法有时会输出错误的语言,但 Zero-Shot-Context 方法可以大大减少这种情况,从而提高性能。但是,我们需要更多的数据来进一步分析这种现象。

5 结论

我们研究了 GPT 系列的 LLM 在翻译中的表现。关键是,学习的信号来自于输出文本的分布。我们基于这个发现提出了 Zero-Shot-Context 方法,这种方法在 GPT3 中大大提高了翻译的质量。我们希望这项工作能为人们更好地理解 LLM 如何学习翻译提供帮助。

6 存在的问题

我们的研究主要是使用高质量的例子。但是,不同质量的例子可能会有不同的效果。而我们提出的方法虽然不需要手动选择例子,但需要两次传递 LLM,这可能会带来一些问题。我们认为有更简单的方法可以实现这一目标,但这还需要进一步的研究。

如何加速大语言模型的运行 [译]
帮你成为更优秀开发者的软技能书单[译]
构建生成式 AI 产品的思考 [译]
针对 Claude 2.1 的长篇幅提示技巧 [译]
打造一个完全本地化的大语言模型 (LLM) 语音助手来管理我的智能家居 [译]
分享
Email 复制链接 打印
Share
上一篇 与完全依赖于人类来明确其偏好的非交互式探询方法(例如,通过提示)不同,生成式探询能更深入地挖掘人类偏好的细微差异。不同于主动学习,生成式探询能够提出更为通用和自由的问题。这幅图包含三个部分: 利用语言模型挖掘人类偏好 [译]
下一篇 如何理解关于 OpenAI Q* 的流言 [译]
发表评价

发表评价 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Please select a rating!

Ad image
- 入群领取知识星球折扣卷, 仅剩99份 -
Ad imageAd image

最近更新

OpenAI GPT-4.5 系统卡
强化 AI 学习
如何像人类一样进行代码评审(第二部分)
强化 AI 学习
模型即产品(The Model is the Product)
强化 AI 学习
使用大语言模型 (LLMs) 构建产品一年后的经验总结 [译]
强化 AI 学习

相关推荐

强化 AI 学习

李飞飞对话英伟达首席科学家:人工智能的高速革命及其对人类的影响 [译]

宝玉的分享
强化 AI 学习

AI 不仅仅是一个功能 [译]

宝玉的分享
1次查看
实验室空无一人,因为所有研究人员都在公园里休息,而 AI 正在完成他们的工作。
强化 AI 学习

多个 AI 智能体共同解决化学难题 [译]

宝玉的分享
在盲测中,我们团队的多数市场人员认为简单 AI 提示词的效果更好
强化 AI 学习

我试验了高级 AI 提示词的效果,结论:它们并不值得 [译]

宝玉的分享
/ Prompt 语宙 /

Experience the limitless creative possibilities of generative AI and unlock new levels of innovation.

Quick Link

  • Remaker AI
  • BGRemaker 抠图Hot
  • AIGC 工具
  • Prompt 咒语生成器
  • 去水印工具

Support

  • Contact
  • Blog
  • Complaint
  • Advertise

标签

3D AI AIGC AI人像 AI创作小助手 AI工具 AI换脸 AI海报设计 AI生成视频 AI绘画 AI视频 AI设计 app图标 chatgpt DALL-E3 excel GPT meta Midjourney openai Pika prompt runway SDXL stable diffusion UI设计 专业 丛林 乐高 人像 人物 光晕 动物 吉卜力 咒语 图标设计 圣诞 壁纸 女性 奶牛 实验室 宠物 客厅 室内设计 家居 局部重绘 展台 山景 帅哥 建筑 建筑设计 影谱科技 微摄影 怪物 提示词 摄影 教程 新闻 日本排放核污水 早报 星光 枯木 植物 模特 水果 泳池 海报 海报设计 清华大学 温馨的家 游戏 游戏美术 炫光 炫彩 玻璃 白茶花 矢量插画 研究报告 破碎 科幻 穿搭 窗 美食 背景 节日 芭比 花 花卉 茶园一角 草原 荷兰奶源 表情包 赛博朋克 超现实主义 软件 运动 金毛 风景 食物 香水
Prompt 语宙Prompt 语宙
Follow US
© 2009-2023 Prompt 语宙. Paooo.com. All Rights Reserved.
Welcome Back!

Sign in to your account

Username or Email Address
Password

忘记密码