2020 年 10 篇必读的 NLP 突破论文 LIST

学术头条
关注

7、全新的 NLP 模型测试方法 “CheckList”

开发诸如 GLUE(General Language Understanding Evaluation)和 SuperGLUE 之类的基准,可以用来评估经过微调的 NLP 模型执行自然语言理解任务的能力。通常,将 NLP 模型的性能与验证准确性的结果进行比较。需要注意,使用验证准确性存在固有的局限性,例如过拟合,验证集的数据分布不同等均可能干扰正确的判断。

而在 ACL 2020 年的 Best Paper 论文 “Beyond Accuracy: Behavioral Testing of NLP Models with CheckList” 中,作者提出了一个框架,一种新的 NLP 模型评测方法:CHECKLIST。CHECKLIST 借鉴了传统软件工程的测试准则,通过模板快速生成大量样例,全面测试模型的各种能力,可以用于几乎所有 NLP 任务。

CHECKLIST 建议使用三种不同的测试方法:

?最小功能测试(MFT, Minimum Functionality Tests),其中使用预期的金标生成示例;

?不变性测试(INV, INVariance Tests),其中从给定的示例中,创建新示例,其中金标被翻转;

?方向预期测试(DIR, Directional Expectation Tests)对原始句子进行修改,金标往期望的方向(正向 / 负向)变化。

作者建议对于 NLP 模型的每一种能力,都尽量采用这三种测试方法测试一遍。

一句话总结现实影响:CheckList 可用于为各种 NLP 任务创建更详尽的测试,有助于识别更多的错误的,带来更强大的 NLP 系统。

该论文在 ACL 2020 上获得了最佳论文奖(Best Paper)。

8、重新评估自动机器翻译评估指标

自动化指标是开发和评估机器翻译系统的基础。判断自动化度量标准是否与人类评估的黄金标准相一致,并非易事。

墨尔本大学计算与信息系统学院 的这项研究表明,当前的指标评估方法对用于评估的翻译系统非常敏感,尤其是存在异常值时,这通常会导致对评价效果产生错误的自信判断。例如,如果使用大量翻译系统来计算领先指标和人工评估之间的相关性,则该相关性通常很高(即 0.9)。但是,如果仅考虑几个最佳系统,则相关性会显着降低,在某些情况下甚至可能为负相关。

因此,他们提出了一种在自动度量标准下以人为判断为阈值提高性能的方法,可以量化所引起的 I 型错误与 II 型错误,即可以接受的人类评判质量差异,以及不能接受的人类评判差异。与 BLEU 和 TER 相比,优先考虑 chrF,YiSi-1 和 ESIM 等评估指标。

一句话总结现实影响:这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。

这项研究在 ACL 2020 上入围荣誉提名论文奖(Honorable Mention Papers)。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存