论文解读|ACL 2024: 演示对多语言情境学习的影响:多维分析


论文解读|ACL 2024: 演示对多语言情境学习的影响:多维分析

摘要:在上下文中学习是一种流行的推理策略,其中大型语言模型仅通过少量标记示例就能解决任务,而无需进行任何参数更新。尽管人们对英语上下文中的学习进行了广泛的研究,多语言上下文中的学习仍然较少被探索,我们对示例在此背景下的作用缺乏深入理解。为了解决这一差距,我们对多语言上下文学习进行了多维度分析,试验了来自不同模型家族的5个模型,涵盖分类和生成任务的9个数据集,以及56种类型学上不同的语言。我们的结果显示,示例的有效性在不同模型、任务和语言之间有显著差异。我们还发现,包括Llama 2-Chat、GPT-3.5和GPT-4在内的强指令跟随模型对示例的质量大体不敏感。相反,一个精心设计的模板往往会完全消除一些任务和语言中示例的好处。这些发现表明,可能高估了示例的重要性。我们的工作强调了需要在多个维度上进行细致评估,以更好地理解上下文中的学习。

1、引言

大型语言模型(LLMs)的一个引人注目的特性是它们能够执行上下文内学习(Brown 等人,2020年),即在推理时基于少数示例解决任务,而无需更新模型参数。这已被证明是一种有效的替代方法,用于在适应多种任务和领域时替代微调(Dong 等人,2022年;Min 等人,2022b年;Si 等人,2023年等等)。鉴于上下文内学习的成功,人们对更好地理解影响其成功的因素产生了更大的兴趣,例如示例选择(Liu 等人,2022年;Rubin 等人,2022年;Wang 等人,2023c年)、提示设计(Min 等人,2022a年;Wei 等人,2022年),以及更普遍地理解上下文内学习如何及为何起作用(Xie 等人,2022年;Bansal 等人,2023年;Hendel 等人,2023年;Pan 等人,2023年;Wang 等人,2023b年)。

然而,最近关于上下文学习的研究主要集中在英语上,多语言上下文学习的探索普遍落后。这是有问题的,因为适用于英语的结果可能不适用于其他语言,特别是那些在大型语言模型训练数据中代表性较差的语言。尽管已经有一些研究超越英语进行上下文学习,但它们要么只关注在多语言任务上对大型语言模型进行基准测试而没有深入探索,例如 MEGA (Ahuja 等人,2023年) 和 BUFFET (Asai 等人,2023年),要么专注于特定能力的探索,如数学推理(Shi 等人,2023b)、机器翻译(Zhu 等人,2023年;Agrawal 等人,2023年)或代码转换(Zhang 等人,2023年)。
在这项工作中,我们采用了一种多维度方法(Ruder等人,2022年),将这些研究方向统一起来,并全面评估了大型语言模型(LLMs)的多语言上下文学习能力。我们专注于剖析上下文示例的实际影响,这对于理解模型行为至关重要。我们的研究涵盖了各种模型、任务和语言,我们试图回答以下研究问题:

  • 多语言表现是否受益于示例?(§4)
  • 示例的质量是否重要?(§5)
  • 示例和模板之间有什么相互作用?(§6)
  • 这些问题的答案在不同语言和模型中如何变化?(§4, §5, §6)

具体而言,我们通过评估5个大型语言模型(LLMs)来解决我们的研究问题,包括仅在未标记文本语料库上进行预训练的基础模型(XGLM和Llama 2),以及通过指令调整和强化学习进一步精炼的聊天模型(Llama 2-Chat、GPT-3.5和GPT-4)。我们在9个多语言数据集上进行评估,这些数据集包括分类和生成任务,涵盖了56种类型不同的语言。

我们的主要发现包括:(1)示例的有效性取决于所使用的模型、任务和语言,这种有效性在不同情况下差异很大。对于基础模型而言,上下文学习在许多任务中几乎没有比零样本学习表现得更好。一般来说,对于使用松散指定提示的生成任务,上下文学习更为重要;(2)即使使用了复杂的示例选择方法,上下文学习并不总是有益的,有时甚至不如完全不使用示例;(3)与基础模型相比,聊天模型对于观看正确标记的示例不那么敏感,这表明对于前者,示例主要帮助模型理解任务格式,而对于后者,示例还传授了任务特定的知识;(4)使用以格式为重点的模板甚至可以消除在聊天模型中使用示例的需要。示例与提示模板的相对重要性基于模型固有的能力而有所不同。

总之,我们认为增加示例的好处可能被高估了。未来关于上下文学习的工作应该仔细地与零次射击学习进行比较,并使用多种模板来真实地反映其有效性。考虑到模型、任务和语言之间巨大的差异,谨慎地表述关于上下文学习的声明也很重要。

2、 初步工作

2.1 上下文学习

在上下文学习(ICL)是一种流行的推理策略,模型在没有任何参数更新的情况下解决任务(Brown等,2020年)。相反,模型通过对有标签的示例进行条件处理来执行任务。示例通常使用“模式-语言化器对”进行格式化,因为这已被证明可以有效地引导良好的任务表现(Schick和Schütze,2021年;Bach等,2022年)。这里,模式被用来格式化模型的输入,而语言化器将标签映射到文本表达。此外,对于经过指令调整的大型语言模型(LLMs),通常会添加任务指令,以提供超出个别示例的任务信息(Mishra等,2022b;Wang等,2022年;Ouyang等,2022年)。

正式地,给定一个测试样本 xt,k 个示例 {(xi, yi)}ki=1,一个模式 P,一个表述器 V 和一个任务指令 I,模型(由参数 θ 参数化)按以下方式进行预测:
yt 服从于条件概率 pθ(y|I, {(P(xi), V(yi))}ki=1, P(xt))

综合来看,模式、表述器以及可选的任务指令构成了模板,用于将示例和测试样本格式化为模型推断的输入提示。因此,示例的有效性与用于向模型展示它们的模板密切相关。

2. 2 多语言提示

之前的研究强调,示例选择和提示模板的选用会显著影响模型的性能(刘等,2022年;傅等,2023年b;斯克拉等,2024年)。在多语言上下文学习中,输入提示的变化因示例、模板和测试样本的语言而变得更加复杂,所有这些都是重要的设计选择。

在模板语言方面,Lin等人(2022年)和Ahuja等人(2023年)发现,英语模板通常比母语模板表现更好,这可能是因为现有的英语大型语言模型比其他语言更擅长遵循指令。基于此,我们在研究中使用英语模板。

对于少量样本演示和测试样本的语言,有三种流行的设置。(1)给定一个某种语言的测试样本,最直接的方法是使用相同语言的演示(称为同语言演示)。这种设置直接衡量模型解决该语言问题的固有能力。(2)另一个选择是无论测试样本的语言如何,都使用英语演示。这是一种跨语言转换设置,其目标是通过上下文学习将知识从一个枢纽语言转移到目标语言。正如Shi等人(2023b)和Ahuja等人(2023)所强调的,同语言演示通常在多种多样的多语言任务上优于英语演示。(3)还有另一种选择是将测试样本翻译成英语——这种方法称为翻译测试,其中演示也用英语。尽管翻译测试带来了强大的性能(Ahuja等人,2023),但这种方法严重依赖于翻译系统进行数据处理,并以LLMs的英语熟练程度为中心。在这项工作中,我们有兴趣解剖LLMs的固有多语言能力,因此我们选择使用同语言演示。

所有这些设计选择在图1中以视觉形式展示,该图提供了多语言上下文学习的概览。详细的设置信息将在下一节提供。

图1多语言上下文学习的组成部分概览(§2),并与零样本学习进行比较。变化的来源包括任务、语言、模型以及模板,即任务指令、格式化输入的模式以及用语言表述的标签。

3、实验设置

模型:我们评估了两种类型的大型语言模型(LLMs):预训练的基础模型和聊天模型。我们的基础模型包括XGLM(Lin等,2022年)和Llama 2(Touvron等,2023年)。我们的聊天模型是Llama 2-Chat、GPT-3.5(Ouyang等,2022年)和GPT-4(OpenAI等,2023年)。具体来说,我们在Huggingface(Wolf等,2020年)上使用xglm-7.5B、Llama-2-13b和Llama-2-13b-chat,通过Microsoft Azure访问gpt-3.5-turbo-16k和gpt-4-32k API。

任务和数据集:我们在多种多样的多语言分类和生成任务上进行实验,使用了9个数据集,涵盖了总共56种语言。我们选择的数据集在很大程度上遵循了MEGA(Ahuja等人,2023年),但我们增加了一些极度代表性不足的非洲语言数据集。我们的分类任务包括自然语言推理(NLI)、释义识别、常识推理和情感分析,相关数据集包括:XNLI(Conneau等人,2018年)、IndicXNLI(Aggarwal等人,2022年)、PAWS-X(Yang等人,2019年)、XCOPA(Ponti等人,2020年)、XStoryCloze(Lin等人,2022年)和AfriSenti(Muhammad等人,2023年)。我们的生成任务是摘录式问答(QA)和机器翻译(MT),使用的数据集包括XQuAD(Artetxe等人,2020年)、TyDiQAGoldP(Clark等人,2020年)和MAFAND(Adelani等人,2022年)。更多细节请参看附录A.1。

在上下文学习中:对于每个测试样本,我们选择 k ∈ {0, 2, 4, 8} 个不同的示例,除非另有说明,否则这些示例是随机抽取的。所有示例都与测试样本使用相同的语言,所有模板都用英语。我们为不同的模型类型使用适当的任务特定模板。所有模板和数据分割都在附录 A.2 中展示。

量化:对于分类任务,我们报告了开源基础模型的排名分类准确性(Muennighoff 等人,2023年;Lin 等人,2022年)。对于聊天模型,我们测量生成输出与口头标签之间的完全匹配(Ahuja 等人,2023年)。至于生成任务,我们使用 QA 数据集的 F1 分数和 MAFAND 的 ChrF++ 分数(Popović,2017年)。我们评估的实施细节在附录 A.3 中提供。

4、更多的演示是否有利于多语言表现?

在本节中,我们系统地比较了 ICL(上下文内学习)和零样本学习,因为关于多语言 ICL 的这个问题在以前的研究中尚未被充分探讨(Ahuja 等人,2023年;Asai 等人,2023年)。我们检查了在不同数量的示例变化下,模型在多种多语言任务上的表现,并在图2中展示了分类任务和生成任务的结果。

图 2 不同示例数下,跨语言的平均表现。除了 GPT-4 之外,我们对所有模型取了 3 个种子的平均值并报告标准差。请注意,标准差相对较小,这可能是因为跨语言平均的结果。en-xx:从英语翻译到另一种语言,xx-en:从另一种语言翻译到英语。

我们从跨模型和数据集的整体趋势开始。OpenAI 的 GPT-3.5 和 GPT-4 模型在我们所有的数据集上都实现了最佳的多语言上下文内学习表现,这并不令人惊讶,因为它们目前是大量 NLP 基准测试的最先进模型。接下来表现最好的模型是 Llama 2 和 Llama 2-Chat,它们显示出与多语言 XGLM 模型相当或更优的表现,尽管主要是在英语语料库上进行训练的(Touvron 等人,2023年)。这表明它们的任务解决能力可以跨语言转移。然而,无论是什么模型,其在 AfriSenti 和 MAFAND 数据集上的表现,特别是将英语翻译成非洲语言时,都明显落后于其他任务,显示即使是最好的模型也存在语言差异。在数据集和模型之间的一个重要模式是,上下文内学习并不总是比零样本学习有改进 — 特别是,它有助于生成任务,但分类任务的结果则参差不齐。对于 AfriSenti 数据集,许多模型表现出了明显的 ICL 改进。然而,在其他任务如IndicXNLI、XNLI 和 PAWS-X 上,相同的模型,尤其是基础模型,与零样本设置相比表现得差很多。我们还在某些情况下看到了边际改进,例如 XGLM 和 Llama2 在 XCOPA 上的表现。与聊天模型相比,增加示例通常会降低基础模型在许多任务上的表现。

在检查 ICL 提升性能的案例时,我们看到仅需 2 到 4 个示例即可迅速达到改善的饱和点。这与 Chen 等人(2023)的发现一致,他们发现将示例数量减少到一个并不会显著恶化连贯思维推理。观察图 3 中跨任务对所有模型和语言组合的零启动性能的改进,我们注意到各个语言之间存在大幅波动,这些波动并未被平均值所捕捉。特别是 PAWS-X 数据集显示出平均下降,但实际上有些语言受益于 ICL 而其他语言则退化。为了更细致地理解任务内特定语言的差异,我们放大到图 4 中的这个数据集以检视这些语言特定的差异。我们看到,即使仅在一个数据集上,语言和模型的表现也可能差异很大,而且一个语言和模型的模式并不一定适用于另一种语言。例如,Llama 2 的 ICL 性能在日语上比零启动性能高出 2.3 分,在韩语上高出 1.3 分。然而,示例对其他语言的性能则有负面影响,例如,英语的性能下降了 10.3 分。总而言之,示例的有效性根据模型、任务和语言的不同而有很大差异。

图 3 4次射击与0次射击之间的性能差异。每个标记代表给定任务中每种语言的跨模型平均性能。MT 表示 MAFAND 数据集。

图 4:PAWS-X中单个语言在4次学习和0次学习之间的性能差异。误差条代表通过3个种子计算的标准偏差。

5、示例质量重要吗?

我们之前的实验是使用随机选择的演示来评估ICL的。为了剖析演示质量的影响,本节实验研究了演示的选择以及真实标签的重要性,即输入标签映射。受到关于演示选择(刘等人,2022年;鲁宾等人,2022年)和输入标签映射(闵等人,2022年c;尤等人,2022年)的工作启发,我们比较了以下三种类型的演示:

  • RANDOM(随机):从干净数据中随机选择示例
  • TOP-K:选择与给定测试样本最语义相似的前k个例子(刘等人,2022年)
  • RANDOM-CORRUPTED(随机-损坏):示例虽然随机选择,但标签通过替换为随机标签而损坏(闵等人,2022年c)

表1显示,在许多情况下,顶部k选择比随机选择表现得更好,尤其是对于基础模型XGLM和Llama 2。对于聊天模型,最大的改进是在生成任务上。例如,GPT-3.5在TyDiQA上的提高了2.98点。然而,顶部k选择在许多其他任务上经常会降低性能,例如,与随机选择相比,GPT-3.5在PAWSX上差了2.07点。与零次射击性能相比,采用顶部k选择的ICL在某些情况下甚至更糟,例如XGLM在PAWS-X和XStoryCloze上。在随机选择比零次射击表现更差的情况下,即使是顶部k选择也只能带来边际改进(详细数字见附录C.1中的表5)。这些发现表明,复杂的示例选择方法并不总是有益的,有时候使用无示例可能比使用示例更糟。

表1 4次射击ICL中TOP-K与RANDOM选择的性能差异。正数表明TOP-K优于RANDOM(预期),突出显示的单元格显示了top-k甚至不如随机选择。▽:TOP-K的表现甚至不如零次学习。对于RANDOM,我们平均了3个种子(GPT-4除外)。

在进一步探讨中,表2中我们将随机选取的示例与真实标签和损坏标签进行了比较。我们发现,在多语言分类任务上使用损坏标签并不会对性能造成太大影响,这与之前关于英语的研究结果一致(Min等人,2022c)。然而,在生成任务上,所有模型使用损坏标签的表现都有所下降,但程度差异很大。XGLM和Llama 2在使用损坏标签时表现明显更差,尤其是在机器翻译任务上,而聊天模型则不那么依赖正确的标签。这可能是因为ICL帮助模型理解任务格式并激活模型之前的知识,而不是模型从示例中学习任务。观察到的模型对某些任务的正确标签不敏感表明,随机标签可以作为在探索更复杂方法之前生成示例的一个强基线(Lyu等人,2023年;Wan等人,2023年)。

表2 使用随机与随机-损坏示例标签的4次射击ICL的性能差异。正数表示随机比随机-损坏表现更好(预期的),而突出显示的单元格显示损坏的标签甚至比基准真值标签表现得更好。我们平均超过3个种子(GPT-4除外)。*:显著差异(p = 0.05)。英语 德语 日语 法语 西班牙语 中文 韩语。

为了研究这些模式如何在不同语言间分布,图5展示了在AfriSenti和XQuAD数据集上使用Llama 2和GPT-3.5的语言特定结果。在AfriSenti上,大多数语言中Llama 2的top-k选择优于随机选择;然而,在斯瓦希里语和聪加语的情况中,分别出现了3.2和1.2点的性能下降。使用GPT-3.5时,top-k选择在大多数语言中没有帮助,但它确实有助于莫桑比克葡萄牙语和Twi语。同样,损坏标签的影响也各不相同。在XQuAD上,所有语言中Llama 2都受到损坏标签的严重影响,而GPT-3.5的影响则小得多,尽管不同语言之间的程度各异。我们敦促自然语言处理(NLP)从业者在创建语言特定应用时关注这些差异,并将探究其来源的工作留给未来。

图 5  在 AfriSenti 和 XQuAD 上,使用不同类型的示例对单个语言进行 4 次射击 ICL 的表现。顶部行展示了 Llama 2 的结果,底部行展示了 GPT-3.5 的结果。

6、更好的模板进一步减少了示例的好处

在上下文学习性能不仅取决于我们迄今为止已经变化的示例,还取决于使用模板对其进行格式化的方式。以往的研究(Gonen 等人,2023年;Mizrahi 等人,2024年)已经显示,修改模板会改变任务性能。因此,本节旨在探讨模板选择与示例之间的相互作用。

模板设计:在零样本设定中,我们观察到聊天模型倾向于生成冗长的回应(例如:“当然!我可以帮助你。”)或解释(例如:“原因是……”),这给自动评估带来挑战。我们注意到通过使用ICL,这种行为有所减少,这让我们质疑示例是否仅仅是为了格式化模型回应的一种手段。为了看看我们是否能通过简单的模板工程达到同样的效果,我们增强了原始模板,加入了专注于输出格式的指令。我们称这些为专注于格式化的模板,如表9所示。

表9 面向格式的聊天模型模板。我们在表8中的原始模板基础上增加了关注格式的指令

在本节中,我们将重点讨论XCOPA、AfriSenti、XQuAD和TyDiQA,因为这些分类和生成任务似乎最能从上下文示例中受益(见第4节)。然而,如图6所示,在使用注重格式的模板时,零次学习与上下文学习之间的性能差距逐渐减少。这种差距的缩减在问答数据集(即生成任务)上更为显著,而不是在XCOPA和AfriSenti(即分类任务)上。我们推测,对于有预定义标签空间的分类任务,模型生成标签词比回答问题(以便于自动评估)更简单。在后者的情况下,注重格式的模板可以教授输出样式,从而大大消除了示例的好处。

图 6:使用不同模板对 0 次射击和 4 次射击性能的影响。注重格式的模板(有阴影部分)相比原始模板(实色)提高了 0 次射击性能,并减少了 0 次射击与 4 次射击性能之间的差距。少量样本的结果是基于除 GPT-4 外的 3 个种子的平均值。

与 GPT-3.5 和 GPT-4 相比,Llama 2-Chat 在零样本和少样本设置中表现较差,且以格式为重点的模板的影响较不明显。在问答数据集上,GPT-3.5 和 GPT-4 甚至在使用以格式为重点的模板的零样本性能上超过了使用原始模板的 ICL,这种模式在 Llama 2-Chat 中未被观察到。这表明示例和模板的相对重要性根据模型解决任务和遵循指令的固有能力而变化。使用我们的新的以格式为重点的模板,我们重新审视了第 5 节中讨论的输入-标签映射的影响。如表 3 所示,所有模型在使用损坏的标签时表现更差,但以格式为重点的模板在很大程度上减轻了这种退化。值得注意的是,使用损坏标签的 GPT-4 的表现与使用真实标签相当。这加强了我们的发现,即正确的输入标签映射并不那么重要,同时也突出了模板在上下文学习中的关键作用。

表3:使用不同模板对4次射击表现的影响,包括使用随机和随机损坏的演示。当使用以格式为重点的模板(F)而非原始模板(O)时,原始标签和损坏标签之间的性能差距(∆)减小。除了GPT-4之外,我们对所有模型平均并报告了3个种子的标准偏差。

在我们的新的以格式为中心的模板中,我们重新审视了第5节讨论的输入-标签映射的影响。如表3所示,所有模型在标签被损坏的情况下表现都有所下降,但以格式为中心的模板在很大程度上减轻了这种退化。值得注意的是,使用损坏标签的GPT-4的表现与使用真实标签的表现相当。这加强了我们的发现,即正确的输入标签映射并不那么重要,同时也突出了模板在上下文学习中的关键作用。
图7展示了针对XQuAD数据集的格式化焦点模板对不同语言的特定影响(其他任务的结果见附录D.1)。对于Llama2-Chat来说,尽管大多数语言使用了格式化焦点模板,示例仍然是必须的,但希腊语和印地语除外。GPT-3.5和GPT-4在不同语言中也显示出变化。此外,对于大多数语言,零次学习配合轻微模板工程可以达到甚至超过上下文学习的性能,这与之前关于GPT-3的研究(Reynolds和McDonell,2021年)一致。我们能够通过模板工程或示例达到同样效果的事实,强化了我们的假设:模型实际上并不是即时学习任务。相反,示例和模板的某种组合起到了激活任务先验知识和鼓励自动评估的一致输出格式的作用。

关于源码上门取算法码上到
源码上门取算法码上到是一个有趣有AI的自然语言处理公众号,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括多模态大语言模型、大模型、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!

欢迎关注我的公众号“源码上门取算法码上来”,原创技术文章第一时间推送。

原论文:https://arxiv.org/abs/2402.15061


文章作者: 沙九
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 沙九 !
  目录
s's