利用机器学习创造一个度量标准需要解决根本的挑战:这一指标需要在不同域和时间上具备连续性。然而训练数据的数量总是有限的,同时公开数据集也是稀疏的。即使目前最大的人类评测数据集WMT度量任务数据集,包含了260k的人类测评,仅仅只覆盖了新闻领域。这对于训练一个适用范围广泛的NLG测评指标远远不够。
为了解决这一问题,迁移学习被引入了这项研究。首先充分利用了BERT中上下文词语表示,BERT是目前用于语言理解最先进的非监督表示学习方法,并成功应用于想YiSi和BERTScore等NLG指标上。
其次研究人人员引入了一种新颖的预训练机制来提升BLEURT的鲁棒性。实验表明直接在人类测评数据集上训练回归模型十分不稳定,因为无法控制测评指标在哪个域或者哪个时间跨度上使用。其精度很容易在出现域漂移的情况时下降,例如测试时文本信息来自于与训练句子对不同的域时。同时在质量漂移时其性能也会下架,例如要预测评级比训练评级高时就可能引起性能下降,不过这也是机器学习研究正在取得进展的标志特征。
BLEURT的成功取决于模型利用数百万合成句子对儿来进行预热,随后再利用人类评级进行微调。通过给来自维基百科的句子加入随机扰动来生成训练数据,研究人员没有采用人类评级而是利用了文献中的模型和指标,使得训练样本的数量可以低成本地进行扩充。
BLEURT数据生成过程,结合了随机扰动和现有的指标和模型。
BLEURT的预训练分别在语言模型目标和NLG评测目标上训练了两次。随后在WMT指标数据集上进行了调优,下图展示了BLEURT端到端的训练流程。实验表明预训练模型极大地提升了BLEURT的精度,特别在测试分布外数据时尤其如此。
结 论
与多个指标在机器翻译和数据文本生成任务上的比较结果表明,BLEURT显示出了优异的性能。例如BLEURT在2019年的WMT Metrics Shared任务上的精度超过了BLEU48%。
在WMT’19 Metrics Shared 任务上,不同指标和人类评级结果的相关性。
研究人员希望这一指标可以为NLG任务提供更好的评测方式,提供灵活的语义的评测视角。BLEURT可以为人们提供除了重合度外更好的测评指标,打破现有测评方法对于算法研发的束缚。