7、全新的 NLP 模型测试方法 “CheckList”
开发诸如 GLUE(General Language Understanding Evaluation)和 SuperGLUE 之类的基准,可以用来评估经过微调的 NLP 模型执行自然语言理解任务的能力。通常,将 NLP 模型的性能与验证准确性的结果进行比较。需要注意,使用验证准确性存在固有的局限性,例如过拟合,验证集的数据分布不同等均可能干扰正确的判断。
而在 ACL 2020 年的 Best Paper 论文 “Beyond Accuracy: Behavioral Testing of NLP Models with CheckList” 中,作者提出了一个框架,一种新的 NLP 模型评测方法:CHECKLIST。CHECKLIST 借鉴了传统软件工程的测试准则,通过模板快速生成大量样例,全面测试模型的各种能力,可以用于几乎所有 NLP 任务。
CHECKLIST 建议使用三种不同的测试方法:
?最小功能测试(MFT, Minimum Functionality Tests),其中使用预期的金标生成示例;
?不变性测试(INV, INVariance Tests),其中从给定的示例中,创建新示例,其中金标被翻转;
?方向预期测试(DIR, Directional Expectation Tests)对原始句子进行修改,金标往期望的方向(正向 / 负向)变化。
作者建议对于 NLP 模型的每一种能力,都尽量采用这三种测试方法测试一遍。
一句话总结现实影响:CheckList 可用于为各种 NLP 任务创建更详尽的测试,有助于识别更多的错误的,带来更强大的 NLP 系统。
该论文在 ACL 2020 上获得了最佳论文奖(Best Paper)。
8、重新评估自动机器翻译评估指标
自动化指标是开发和评估机器翻译系统的基础。判断自动化度量标准是否与人类评估的黄金标准相一致,并非易事。
墨尔本大学计算与信息系统学院 的这项研究表明,当前的指标评估方法对用于评估的翻译系统非常敏感,尤其是存在异常值时,这通常会导致对评价效果产生错误的自信判断。例如,如果使用大量翻译系统来计算领先指标和人工评估之间的相关性,则该相关性通常很高(即 0.9)。但是,如果仅考虑几个最佳系统,则相关性会显着降低,在某些情况下甚至可能为负相关。
因此,他们提出了一种在自动度量标准下以人为判断为阈值提高性能的方法,可以量化所引起的 I 型错误与 II 型错误,即可以接受的人类评判质量差异,以及不能接受的人类评判差异。与 BLEU 和 TER 相比,优先考虑 chrF,YiSi-1 和 ESIM 等评估指标。
一句话总结现实影响:这些发现对机器翻译中的度量评估和系统性能评估的协议进行了改进。
这项研究在 ACL 2020 上入围荣誉提名论文奖(Honorable Mention Papers)。