2024|通过相似性搜索进行上下文示例选择可改善低资源机器翻译
摘要:生成式大语言模型(LLMs)进行上下文学习的能力,已经催生了大量研究,探讨如何最好地为各种自然语言处理任务提示模型。在本文中,我们专注于机器翻译(MT),这是一个已被证实能从上下文翻译示例中受益的任务。然而,尚未发布关于如何最佳选择示例的系统研究,且关于基于相似性选择与随机选择的有效性,报告了混合结果。我们提供了一项涵盖多个LLMs和多种上下文示例检索策略的研究,比较多语种句子嵌入。我们涵盖了几种语言方向,代表不同的语言资源化程度(从英语到法语、德语、斯瓦希里语和沃洛夫语)。与以往发布的结果相反,我们发现句子嵌入的相似性可以改善MT,特别是对于低资源语言方向,并讨论了选择池多样性与质量之间的平衡。我们还突出了评估基于LLM的MT可能存在的问题,并建议一个更合适的评估协议,调整COMET度量标准以评估LLMs。代码和输出在以下链接可自由获取:
1、引言
在上下文中的例子显著影响ICL结果。这一方面已经在通过相似性搜索的例子检索中被探讨,其中基于与待翻译句子的相似性选择上下文中的例子。然而,关于其有效性尚未达成共识。Vilar等人(2023年)发现,从包含只有高质量样本的选择池中检索相似句子并没有比随机选择带来更多的好处。他们的实验关注于高资源语言方向。朱等人(2023年)和亨迪等人(2023年)在检查其他高资源语言方向时得出了相同的结论。然而,Agrawal等人(2023年)通过使用BM25检索的例子超越了随机基线,并通过重新排序程序进一步提高了性能。张等人(2023a)观察到使用相似例子和性能之间的相关性,但警告说这种相关性可能不够强。这些混合结果不仅表明尚不清楚是否选择例子可以带来收益,而且对于低资源语言的少数样本选择的影响仍然未被充分探索。现有研究也常常忽略选择池的大小和质量的影响,而且在不同规模的大型语言模型(LLMs)之间缺乏分析。
在这项工作中,我们通过系统分析相似性搜索的例子检索来解决这些差距。我们基于多语言句子嵌入在各种开放访问的LLMs上对多个相似性度量进行基准测试。我们考虑从英语到法语、德语、斯瓦希里语和沃洛夫语的翻译,以考虑不同资源水平。我们比较了句子嵌入和现有方法的使用,并评估了在从英语翻译到斯瓦希里语时这种策略对不同选择池组合的稳健性。此外,我们突出了评估基于LLM的MT的潜在问题,并提出了一种更合适的评估协议。我们的分析表明,对于高资源语言,通过相似性搜索的例子检索仅较随机抽样略有提升MT。然而,我们首次观察到在翻译成低资源语言时,在所有指标上都有显著的收益。这些结果在多种规模的LLMs中都可以观察到。
2、背景与相关工作
在上下文学习(ICL)方面:在Brown等人(2020年)展示了GPT-3在语言理解基准测试中强大的零次射击和少次射击能力之后,研究社区投入了大量精力来实证分析ICL。赵等人(2021年)显示,提示格式、示例的质量及其顺序都会影响性能,尽管已经显示,例如由Min等人(2022年)在少次射击文本分类中,随着包含示例数量的增加,性能可能会达到平台期。另一条研究方向探索了提示策略的设计,大多数结果是在推理任务上获得的:思维链(韦等人,2022年;小岛等人,2022年;张等人,2023b年),自我一致性(王等人,2023年;陈等人,2023年)以及思维树(姚等人,2023年)。
使用大型语言模型进行机器翻译:在机器翻译(MT)领域,比较大型语言模型以及了解它们在少样本设置中的行为激发了多项研究。林等人(2022年)展示了XGLM7.5B在32-shot多语言翻译方向上优于GPT-3 6.7B。Vilar等人(2023年)使用PALM(Chowdhery等人,2022年)进行少样本MT研究。他们对资源丰富的语言进行了实验,并得出结论,选择池的质量对少样本MT有很大影响。张等人(2023a年)和Bawden与Yvon(2023年)分别分析了GLM-130B(曾等人,2023年)和BLOOM(BigScience Workshop等人,2023年)用于少样本MT。他们都强调了提示格式的重要性。Hendy等人(2023年)展示了GPT模型在少样本提示下与商业MT系统的竞争力。这些研究大多关注资源丰富的语言,但Hendy等人(2023年)使用了两种资源较少的语言(豪萨语和冰岛语)来证明GPT模型落后于最佳MT系统,而Bawden和Yvon(2023年)则研究了低资源语言对之间的1-shot MT。朱等人(2023年)进行了一项系统研究,他们比较了八种大型语言模型在102种不同资源水平的语言中进行少样本MT的表现,尽管他们的大多数实验是用八个随机挑选的少样本例子完成的。
示例选择的相似性搜索:尽管包括机器翻译(MT)在内的大多数工作使用的是随机选择的少量样本,但其他一些研究则探究了选择特定示例对性能的影响。这通常是通过挖掘与待处理句子相似的句子来实现的,通常基于词汇级语言模型(例如RoBERTa,Liu等人,2019年)或句子嵌入模型(例如LASER2,Heffernan等人,2022年)的句子向量表示。Liu等人(2022年)展示了使用微调过的RoBERTa模型的k-NN检索可以提高GPT-3在问答和表格到文本生成任务上的表现。Vilar等人(2023年)实现了使用RoBERTa和词袋嵌入的k-NN检索,用于高资源语言对之间的少量样本机器翻译。同样,Zhu等人(2023年)将BM25(Robertson等人,1995年)与用于从英语到德语和俄语的机器翻译的句子嵌入的示例检索进行了比较。他们都得出结论,使用相似示例与使用随机示例在高质量选择池中是可比的。Hendy等人(2023年)使用LaBSE(Feng等人,2022年)构建高质量选择池和/或进行高质量示例选择。他们对德语、俄语和中文的实验显示了从高质量选择池中进行质量选择的无关性。张等人(2023年a)研究了射击选择与机器翻译性能之间的相关性,包括使用LASER2的示例检索。他们的工作主要集中在中文和德语上,他们报告了混合结果,而Agrawal等人(2023年)探索了使用BM25的示例选择,并显示了他们的重新排序程序可以提高BLEU分数。关于基于相似性的选择方法有效性的结论的变化突显了需要进行更系统研究的必要性,这些研究应该覆盖高资源语言和低资源语言,后者经常被排除在这些实验之外。
3、通过相似性搜索进行示例检索
通过相似性搜索的示例检索是ICL的一种选择策略。其思想是使用输入来从标记数据池中检索相似的(输入,输出)对,然后将其用作少量示例(见图1)。它围绕以下参数进行:
- 用于检索源句子x的示例的池P。对于机器翻译(MT),该池对应于一组平行句子对。
- 从P中检索的少量示例的数量k。根据定义,k ≤ |P|。
- 检索器R。与RAG(Lewis等人,2020年)的思想相似,其作用是识别类似的示例对以添加到输入提示的上下文中。这种相似性可以是句子我们决定分析的语法或语义方面的。
- 格式化每个示例的模板。这用于组装要翻译的句子和构建要输入到LLM的提示的少量示例。默认情况下,最相似的示例是最接近要翻译的句子的。我们在附录B.1中对这种选择进行了消融测试。
- 一个LLM。LLM(pθ)被用来输入提示以获取翻译。我们在我们的研究中测试了各种基于解码器的LLM。
在MT中,P包括并行数据的源侧和目标侧。通过分析要翻译的句子与P中每对的源侧或目标侧的相似性来进行检索。这意味着有两种可能的示例检索方法,我们称之为源到源和源到目标。默认情况下(除非另有说明),我们使用源到源的检索方法(参见附录B.5的源到目标方法)。
4、实验
数据集:我们从事英语(eng)到其他语言的机器翻译工作,因为这比翻译成英语更具挑战性。我们选择了四种目标语言:两种高资源语言,法语(fra)和德语(deu),一种中等资源语言,斯瓦希里语(swa),以及一种低资源语言,沃洛夫语(wol)。为了评估,我们使用了包含1012个示例的FLORES-200(Goyal等人,2022;Costajussà等人,2022)开发测试集。我们使用包含997个示例的FLORES-200开发集作为选择池P。我们还考虑了NLLB数据集(Costajussà等人,2022)中的20,000个示例,用于涉及池扩展的实验。我们将这个额外的数据集称为U。
检索器:我们比较了五种多语言句子嵌入:SONAR(Duquenne 等人,2023年)、Embed v3.3 E5(Wang 等人,2022年)、LaBSE(Feng 等人,2022年)以及 LASER2(Heffernan 等人,2022年)。我们与以下方法进行了比较:BM25(Robertson 等人,1995年),R-BM25(包括使用 BM25 检索前100个相似候选者,然后使用(Agrawal 等人,2023年)概述的算法进行重新排序,并为ICL选择前k个),BLEU(Papineni 等人,2002年)和 RoBERTa(Liu 等人,2019年)嵌入。我们还与一个基线进行了比较,其中k个上下文示例是从池中随机抽取的,报告了三个不同种子的平均得分。
模型:我们在实验中测试了多个大型语言模型(LLM)。为了可复制性,我们选用了几种最先进的开放获取LLM:BigScience Workshop等人的BLOOM 7B(2023年)、Groeneveld等人的OLMo 7B(2024年)、Gemma团队的Gemma(2B、7B)(2024年)、Touvron等人的LLaMA-2(7B、13B和70B)(2023年)、Jiang等人的Mistral 7B v0.1(2023年)以及Jiang等人的Mixtral 8x7B v0.1(2024年)。
评估指标:历史上BLEU(Papineni等人,2002年)一直是机器翻译(MT)评估的标准指标。深度学习的最新进展催生了神经评估指标的出现,其中最成功的一个是COMET(Rei等人,2020年),它与人类评判的相关性优于BLEU(Rei等人,2022年)。尽管COMET在某些方面优于BLEU,但在使用LLM评估MT时,它也存在一些局限性。首先,它的编码器的语言覆盖范围有限,这限制了其对未见过的语言(例如Wolof语)的可靠性。此外,它对翻译错误语言和空白翻译的问题不够健壮。这些问题在设计指标时曾被认为是理所当然的,因为总是假设MT系统是设计来产生正确语言的文本。然而,随着LLM在MT中的应用,这些问题变得相关,因为这些模型并非专门为MT训练,因此翻译是否为正确语言的前提并不总是成立。这两个问题在零样本设置中以及使用少量上下文示例时更有可能出现,特别是在提示模型生成低资源语言时。我们提出了一个简单的纠正协议,以解决翻译问题,该协议设定如果翻译为空或使用错误的目标语言,则将翻译的分数设置为0。我们将这个变体命名为“语言感知COMET”(简称laCOMET),它在保持COMET的优势的同时,使其能够抵抗之前提到的问题。值得注意的是,对于没有展示出激发其创造动机的问题的句子(即非空的、正确语言的翻译),laCOMET与COMET严格等价。我们使用基于COMET 22(Rei等人,2022年)的laCOMET作为我们的主要度量标准。我们使用fasttext(Bojanowski等人,2017年;Costa-jussà等人,2022年)进行语言识别,该技术支持包括我们工作使用的语言在内的200多种语言。为了透明度,我们还在附录中包括了使用SacreBLEU(Post,2018年)计算的BLEU和COMET。
5、实验
我们首先探索模板选择(第5.1节),以便选择我们将在实验剩余部分使用的模板。在第5.2节中,我们对示例检索进行了系统研究,使用了多种多语言句子嵌入,涉及不同数量的上下文示例和LLMs族。在第5.3节中,我们将表现最佳的句子嵌入与之前提到的替代方法进行了示例检索比较。在第5.4节中,我们研究了示例检索对示例池大小和多样性的鲁棒性。最后,在第5.5节中,我们专注于英语至斯瓦希里语,并分析了不同规模的LLMs的示例检索情况。
5.1 模板选择
我们进行了初步调查,以选择一个强大的模板用于后续的机器翻译(MT)实验。我们比较了六种潜在的MT模板(见表1),分别在0-shot和5-shot设置中,针对三种模型和四种语言方向进行了测试。BLEU分数显示在表2中。一种模型的最佳模板不一定适用于另一种模型在零样本设置中的表现(例如,对于LLaMA 2 7B而言,T3 ≥ T5,但对于Mistral 7B v0.1则不然)。我们注意到,将提示的结尾用目标语言书写可以显著提高零样本MT的效果;例如,使用T2模板替代T1模板,使得BLOOM 7B1在eng→fra方向上的BLEU得分绝对提高了11.5,Mistral 7B v0.1提高了5.5,LLaMA 2 7B提高了0.8。对于eng→deu方向,T2比T1高出0.2 BLEU分数,对于BLOOM 7B1,Mistral 7B v0.1高出4.4,LLaMA 2 7B高出2.7。同样,当使用T4替代T3时,也观察到了显著的增益。我们假设这些改进归因于在目标语言中结束的提示促使模型继续用该语言生成,减少了无关输出的发生。在提示的结尾加上冒号(:)可能对某些大型语言模型(LLM),如Mistral 7B v0.1和LLaMA 2 7B,产生负面影响,使它们生成日期(格式为YYYY-MM-DD)。模板T1、T2、T5和T6之间的性能差异在5-shot设置中消失,但冒号的负面影响使得T3和T4落后。在低资源语言的翻译中,零样本设置得分较低,这阻碍了对模板的可靠比较。然而,分数通常彼此接近。对于eng→swh和eng→wol方向,T1、T2、T5和T6是少数样本场景下所有三种LLM的最佳模板。此分析的总结是,正如(Zhang et al., 2023a)所观察到的,零样本性能在模板之间有很大的差异。这种差异在少数样本中除了对抗性模板外,往往会消失。T1、T2、T5和T6之间的任何模板都可以在少数样本场景下公平比较不同模型。在本研究的其余部分,我们选择使用模板T5,因为它简单且在少数样本表现良好。
5.2、使用多语言句子嵌入对示例检索进行基准测试
我们对使用多语言句子嵌入进行示例检索的基准分析进行了研究,以评估其性能并与随机抽样进行比较。正如表3所示,使用句子嵌入的示例检索在少量样本情景中(最多10个样本)始终优于随机抽样。在翻译成法语和德语时,性能提升较为适中,通常在大多数评估的大型语言模型(LLMs)中,laCOMET增幅介于0.1至0.5之间,并且随着上下文中例子数量的增加,这一增幅有所缩小。然而,我们注意到在使用BLOOM 7B1翻译成德语时有大约2.5的显著改进。我们认为这种较大的改进是由于BLOOM 7B1在德语中的性能相对较差,因为德语并未正式包括在其训练数据中。对于翻译成斯瓦希里语,使用句子嵌入的收益介于1.7至3.4 laCOMET之间,对于Gemma 7B则介于0.6至1.6之间。这些收益在使用Mistral 7B v0.1和LLaMA 2 7B翻译成斯瓦希里语或沃洛夫语时激增,达到了10 laCOMET。此外,所有的句子嵌入在大多数情况下都优于随机抽样。尽管它们之间的性能变化不是非常显著,但SONAR、Embed v3和E5在示例检索中的表现略优于LaBSE和LASER2。SONAR在这些中表现最好,略优于Embed v3和E5。
总结来说,使用相似的上下文中的例子对于高资源语言带来了适度的收益,这与之前的发现(Zhang等人,2023a)一致,但我们看到对于低资源语言有显著的好处。我们在附录B.3和附录B.4中记录了同样的发现,其中包括了更多的LLMs,并使用了BLEU和COMET进行了评估。
5.3、与其他方法相比
我们将表现最佳的多语言句子嵌入模型SONAR与文献中的其他方法在少样本场景下进行了比较。laCOMET的分数见表4。SONAR在所有语言方向和LLMs中显示出更大的性能提升。在SONAR之后,BM25成为第二佳方法。它依赖于n-gram(词)匹配,这自然使其成为示例选择的有力竞争者。然而,应用Agrawal等人(2023年)提出的重排序未能在我们的实验设置中进一步改善BM25。我们将这种失败归因于示例池缺乏多样性,这阻碍了其覆盖翻译句子中每个词的能力。虽然RoBERTa在法语和德语中可以达到与SONAR相当的性能水平,但在斯瓦希里语和沃洛夫语中始终落后。这种差异可能归因于RoBERTa没有明确训练以输出两个相似句子的类似向量表示,导致其选择比SONAR更差。尽管如此,RoBERTa在我们的评估中仍然优于随机抽样。
5.4、对选择池的质量和多样性的鲁棒性
ICL的表现在很大程度上依赖于选择池的多样性和质量。初始选择池是一小组高质量的专业翻译。与以往的工作类似,我们对高质量池的示例检索进行了广泛研究。在这组实验中,我们比较了在将文本翻译成斯瓦希里语时,使用SONAR和BM25进行示例检索的行为,涉及八种不同的池组合P1至P8。每种组合包括来自FLORES-200开发集的样本和/或来自NLLB数据集的样本(见第4节)。我们在表5中评估了这八种池组合的质量和多样性,使用两个关键指标:Vendi得分(Dan Friedman和Dieng,2023年)和平均困惑度。Vendi得分通过SONAR嵌入计算,用于衡量多样性,得分越高表示组合内的多样性越大。平均困惑度通过Gemma 2B计算,用于衡量样本质量,数值越低表示样本质量越高。在图4中,我们观察到随着选择池中高质量样本的增加(从P1到P4),在5次和10次射击设置中,SONAR和BM25的表现逐渐改善。虽然对于这两种策略来说,与随机抽样相比,初始差异(在P1时)较小,但持续扩大到P4。选择池中引入NLLB样本,这些样本本质上比FLORES-200的质量低,导致所有策略的输出总体质量下降,随机抽样尤其受影响。因为表现下降较少,SONAR显示出最强的鲁棒性。这激励了在池质量不均或部分已知的情况下,通过相似性搜索进行示例选择的使用。
为了更深入了解正在选择哪些示例,我们分析了在10次射击设置中,属于FLORES-200开发集(即最高质量的示例)的在上下文中的示例所占的比例。我们使用BLOOM 7B1进行分析,并在图3中报告结果。我们观察到,尽管可以访问更多样本,但SONAR更倾向于选择FLORES的样本而不是BM25。这表明SONAR更擅长检索更高质量的样本,即使这样做牺牲了与感兴趣句子的n-gram级相似性。这种查询“好句子”的能力导致对嘈杂选择池的更大抵抗力。有趣的是,如表5所示,10次射击中检索到的示例之间的平均相似性得分随选择池的大小增加而提高。这表明更大的池提高了检索相关在上下文示范的可能性,尽管检索到的示例的质量对生成良好的输出更为重要。
5.5、通过相似性搜索的示例检索的可扩展性
我们通过在一系列参数数量从2B到70B的大型语言模型(LLM)上进行评估,展示了示例检索的优势可以在不同规模上观察到。图4突出显示了在从英语翻译到斯瓦希里语时示例检索的有效性。大多数LLM显示,使用SONAR和随机抽样进行示例选择之间,至少有4个laCOMET点的性能提升。有趣的是,我们观察到即使有20个上下文示例,与随机抽样的差距也不会急剧下降;随着上下文示例数量的增加,这种差距继续增大。BM25始终优于随机抽样,但没有达到SONAR的laCOMET分数。
6、讨论
通过相似性搜索选择示例可以改进机器翻译。我们将结果翻译成法语和德语的实验部分与Vilar等人(2023年)和Zhu等人(2023年)的先前工作相呼应,我们报告了在高质量样本池中通过随机抽样对这些语言的改进幅度较小(大多数语言模型(LLM)之间有0.1至0.5 laCOMET的提升)。然而,我们在斯瓦希里语和沃洛夫语上的实验显示,示例选择可以为低资源语言带来显著收益。对于这些语言,当LLM的上下文长度允许时,我们没有观察到在20次尝试中出现平台期,与Zhu等人(2023年)的观点相反。除了强大的性能外,使用SONAR进行示例检索在质量较低的样本池中也具有弹性,表现优于随机基线以及强大的BM25方法。这种韧性在高资源和低资源方向上都有观察到,无论是在BLEU还是laCOMET方面。
当提示LLM翻译成低资源语言时会遇到什么问题?正如第5.1节所示,LLM的零次射击能力对模板非常敏感。这是由两个问题引起的。首先,有时模型无法理解任务,生成无关的输出(例如多个换行,多语言重复提示的结尾或输入句子的继续)。其次,是无法准确执行任务,例如重复输入句子(可能有少许修改)、部分翻译(例如在结尾重复n-grams)和错误语言的翻译。表6包含了一些由Mixtral 8x7B v0.1产生的这些问题的示例。第一个问题在我们有一个好的模板、高资源语言和能力强的LLM(例如表2中的模板T5、法语和Mistral 7B v0.1)时通常是次要的。此外,它主要通过使用一次射击示例来解决。这就是为什么从零射击到一次射击性能之间有巨大差距的原因,正如Hendy等人(2023年)所指出的。低资源方向通常需要更多的射击,典型的是2到5次。第二个问题更为顽固,特别是对于低资源方向。随着射击次数的增加,正确语言的翻译数量增加,空白翻译的数量减少。然而,分数仍然较低。
为什么通过相似性搜索的示例选择有效?ICL的成功取决于LLM理解任务的能力和在给定输入的情况下生成高质量输出的能力。如前所述,任务理解主要通过使用少量示例解决。通过相似性搜索的示例选择通过使用高质量示例来提高输出质量,鼓励LLM生成更高质量的输出。示例检索对从英语到法语的翻译的影响在措辞层面上是显著的。它使LLM使用与随机抽样不同的词汇来传达相同的信息。此外,它影响了实体的翻译(例如组织、大学、体育馆等的名称),尽管我们并未在这方面观察到一致的模式。对于翻译成沃洛夫语,我们观察到示例检索显著影响了正确语言翻译数量增加的速率,部分解释了其卓越的表现。对于翻译成斯瓦希里语,示例检索有助于减轻n-grams的不受控制生成,其对措辞的影响比对法语的观察更为明显。LLM倾向于在斯瓦希里语中生成更多与句子翻译上下文相关的词汇。
7、总结
我们提供了一个系统的研究,通过相似性搜索作为一种简单的方法来提升大型语言模型(LLMs)的机器翻译(MT)能力,比较了在使用不同句子嵌入方法选择少量样本例子时,多个开源大型语言模型的翻译质量。我们研究了四种翻译方向,涵盖了资源丰富和资源匮乏的语言。我们的结果证实了之前关于资源丰富语言的研究结果,即相似性搜索与随机抽样相比并没有提供显著的优势。然而,我们展示了这种策略允许大型语言模型在中等和资源匮乏的语言上展示出更优秀的翻译性能。我们在多种规模的大型语言模型和示例池大小上验证了这些结果。我们还展示了在高质量池中具有更大多样性会产生更好的结果。示例检索对于质量异质性显著更为稳健,其中句子嵌入提供了最高的韧性。
8、局限
我们工作的一个固有限制是对相似性概念的定义;这是一个广泛且多样的概念,我们选择通过使用句子嵌入来关注语义(尽管很可能其他方面也通过句子嵌入得到了表示)。虽然其他方法(例如更多基于语法的方法)也是可能的,且未来的研究中探索这些方法将会很有趣。此外,尽管在从英语翻译到沃洛夫语时观察到了进步,但显然大多数大型语言模型(LLMs)在处理这种语言及其他资源较少的语言时都遇到了相当大的困难,这应成为一个需要探索的研究方向。
关于源码上门取算法码上到
源码上门取算法码上到是一个有趣有AI的自然语言处理公众号,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括多模态大语言模型、大模型、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!
欢迎关注我的公众号“源码上门取算法码上来”,原创技术文章第一时间推送。