青年创业帮是一个专业为创业者提供学习交流的创业网站,主要为网民提供创业项目、创业信息、创业商学院、创业辅导等商机资讯、助您时刻掌握最热行业动态。

当前位置:主页 > 科技创业 > 40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

来源:青年创业帮作者:简万贵更新时间:2020-10-03 15:59:20阅读:

本篇文章3170字,读完约8分钟

边肖|姜宝尚

编辑|韦嘉


世界上大约有6,900种语言,但其中大多数都没有英语的数据规模,这导致了大多数nlp基准仅限于英语任务,这极大地制约了自然语言处理的多语言发展。


从语言学的角度来看,值得注意的是不同的语言可能有相同的来源。例如,英语中“书桌”和德语中的“铁饼”都来自拉丁语“铁饼”。


如何利用这种语言间的“共享结构”来克服数据不足的问题,是当前学术界多语言研究的方向之一。
最近,由谷歌与cmu和deepmind联合推出的用于评估跨语言泛化的大规模多语言多任务基准,极大地促进了多语言研究。


(雷锋。这项研究涵盖了40种语言(包括12个语言家族),还包括9个需要共同推理不同层次的句法或语义的任务。




作为谷歌论文的标题,xtreme是评估跨语言迁移学习质量的基准。就多样和有代表性的任务和语言而言,在选择构成基准的任务和语言时要考虑的主要原则包括:任务的难度、任务的多样性、培训的效率、使用多种语言、足够的单语数据等等。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

1.任务难度具有足够的挑战性,这使得跨语言表现低于人类表现;
2。任务应该要求语言模型在不同的层次上表达不同的意思。例如,分类任务需要句子级的意义转移,而顺序标记任务,如位置标记或命名实体识别(ner),需要在单词级测试模型的意义转移能力。
3。考虑到资源有限,任务需要在gpu上训练,训练时间不能超过一天;
4。首先考虑涵盖多种语言的任务;
5。任务的使用是许可的,可以用于研究和数据再分配。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

(雷锋。(公开号码:雷锋。com))

极限包含9个任务,有4个类别,可以在不同的意义层次上进行推理。任务概述如上表所示。

Xnli:博览会是与纽约大学合作开发的。作为一个新的自然语言推理语料库,它将多语种的测试集和开发集扩展到15种语言,包括斯瓦希里语和乌尔都语等低资源语言。

Paws-x:基于 paws数据集,扩展了包括其他六种不同语言的口译识别对抗数据集,支持的语言包括 法语、西班牙语、德语、汉语、日语和韩语。Paws-x数据集包含23 659组由人类判断的Paws扩展句子对和296 406组由机器翻译的训练对。

Pos:边肖使用一般依赖关系数据库中的pos标签数据,使用英语训练数据进行训练,并在目标语言的测试集上对其进行评估。

内尔:对内尔来说,边肖使用维基百科数据集,并通过知识库属性、跨语言、锚链接、自我训练和数据选择,为维基百科中的命名实体自动标注iob2格式的loc、per和org标签。

Xquad:这是一个更全面的跨语言基准测试,包括240段和1190对由专业翻译翻译成10种语言的问题。

Mlqa:这是一个类似xquad的多语言问答数据集,可以作为评估跨语言问答性能的基准。它由超过5000个以小队格式(12k英语)提取的问答实例组成,使用7种语言——英语、阿拉伯语、德语、西班牙语、印地语、越南语和简体中文。

(雷锋网络)极限基准测试支持的任务


tydika-goldp:tydika是一个问答语料库,涵盖了 种不同的语言,tydika-goldp是它的简化版本,排除了一些无法回答的问题。它类似于xquad和mlqa,但是它的词汇重叠比这两个少两倍。此外,边肖使用英语培训数据对目标语言的测试集进行培训和评估。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME


bucc:该数据集为每种语言提供训练和测试分词。为了简化,边肖直接评估测试集上的表示而不进行微调,但是使用余弦相似性公式来计算相似性。


tatoeba:该数据集包含多达1000个英语句子对,涵盖122种语言。在这个数据集上,边肖使用余弦相似度来寻找最近的邻居并计算错误率。


总之,xtreme中包含的任务涵盖了一系列范例,包括句子分类、结构化预测、句子检索和问题解决。



因为英语是多语言表示中最常用的评估设置,并且大多数任务只有英语培训数据,所以谷歌在评估设置中使用英语作为零触发跨语言迁移的源语言。尽管英语不是所有目标语言跨语言迁移的最佳源语言,但它是目前实践中最可行的设置。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME


为了使用xtreme评估模型的性能,有必要使用导致跨语言学习的目标语言在多语言文本上对模型进行预训练,然后根据指定任务的英语数据对模型进行微调。然后,xtreme评估模型在目标语言中的零触发跨语言迁移性能。


下图显示了预培训、微调和零触发迁移的三个主要过程:

该模式的跨语言迁移学习过程:1。多语言文本的预培训;2.用英语微调下游任务;3.使用xtreme的零镜头评估。

实际上,这种零触发设置的优点之一是它可以提高计算效率,也就是说,仅通过微调每个任务的英语数据,就可以用其他语言直接评估预训练模型。

对于用其他语言标注数据的任务,边肖还比较了模型在这些语言中微调后的性能,最终得到了9个极限任务的零分,并得到了综合得分。

在基准测试方面,谷歌研究人员选择了几个高级多语言模型进行测试,包括多语言伯特 模型(mbert)、多语言伯特模型的大版本xlm和xlm-r以及大的多语言机器翻译模型 m4。这些模型的共同特征是,它们已经接受了来自不同语言的大量数据的预训练。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

在这种方法中,主要的方法是通过自我监控或翻译来学习多语言表示。

图例:基于翻译的基准对句子检索毫无意义。在目标语言训练数据的情况下,边肖提供了一个语内基准。

从上图可以看出,xlmr是最好的模型,总体上比mbert有明显的提高,但在结构化预测的任务上没有什么改进。Mmte在大多数任务上具有与mbert相同的性能,在xnli、pos和bucc上具有更强的性能。

对于具有语言内训练数据的任务(语言内训练数据),使用语言内数据训练的多语言模型优于零镜头迁移模型。然而,只要有更多的英语样本,零镜头迁移模型将优于只训练1000个复杂问答任务的多语言模型。

对于结构化预测任务,1,000个语内示例可以使模型在一个完整的标注数据集上达到训练的性能。

最后,在翻译训练和语言环境中的多任务学习通常比单一语言训练更好。

对于一些有代表性的模型,边肖研究了跨语言迁移差距,即英语测试集和所有其他语言之间的差距。

如上图所示,虽然强大的模型(如xlm-r)在挑战性任务(如xquad和mlqa)中可以显著缩小与mbert的差距,但它们对句法结构预测任务有不同的影响。

在分类任务上,迁移学习的差距最小,这表明这些任务的进展可能很小。

机器翻译的使用缩小了所有任务之间的差距。一般来说,所有的方法之间有很大的差距,这表明跨语言迁移有很大的潜力。

边肖做了一系列的分析,并研究了目前的跨语言模型的局限性。具体分析包括五个部分:

图例:xlm-r在各种任务中的极限任务性能概述


最佳零镜头模式分析:如上图所示,这一部分主要解释了为什么评估不同任务和语言中的常见多语言表示非常重要。


与训练前数据量的相关性:如上图所示,模型性能与每种语言的维基百科文章数量之间的皮尔逊相关系数ρ表明,除了结构化预测任务外,大多数任务的相关系数都很高。这意味着当前模型不能充分利用从训练前数据中提取的信息来转移到句法任务。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME


语言特征分析:如上所示,根据不同的语言和脚本分析结果。对于朗伯来说,印欧语系的分支(如日耳曼语、罗马语和斯拉夫语)的迁移表现最好。相比之下,尼日尔-刚果和凯拉-戴等低资源语系的跨语言迁移绩效仍然较低。此外,不同的流行文字,如拉丁语和表意文字,在句法任务上有不同的表现。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

跨语言错误:因为其他测试集是从英语翻译过来的,这部分分析这些方法是否会在源语言和目标语言中产生相同类型的错误。更具体地说,它讨论了英语中正确和错误预测的例子在其他语言中是否被正确预测。结果是在xnli和xquad数据集上有不同的答案。

40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

扩展到不可见的标签组合和实体:这部分主要分析结构化预测任务迁移不成功的原因。结论是,这个模型可能难以扩展到具有更多目标语言特征的实体。


标题:40种语言、9项推理任务,谷歌发布新的NLP基准测试XTREME

地址:http://www.qdgzw.com/kjcy/32222.html

免责声明:京青年创业网是一个专业为创业者提供学习交流的创业资讯媒体,更新的资讯来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,京青年创业网编辑将予以删除。

返回顶部