2020 年 10 篇必读的 NLP 突破论文 LIST

学术头条
关注

4、为长文档而生的 Longformer

Self-Attention 机制是成功实现 Transformer 体系结构的关键因素之一。但是,它也使得基于 Transformer 的模型很难应用于长文档。

现有技术通常将长输入分成多个块,然后再使用复杂的结构在这些块中组合信息。艾伦人工智能研究所的研究团队,则为这个问题介绍了一种更为优雅的解决方案。

他们提出的 Longformer 采用了一种新的注意力模式,即将局部自注意力和全局自注意力相结合,在提高效率的同时又不失效果。这种关注机制与序列长度成线性比例,并可以处理具有数千个 tokens 的文档。由于 sliding window 注意力模式的实现需要带状矩阵乘法的形式,而现有的深度学习库(如 PyTorch 和 Tensorflow)不支持这种形式,因此作者还引入了自定义 CUDA 内核来实现这些注意力操作。

实验表明,Longformer 在字符级语言建模任务上取得了最先进的结果,并且在经过预培训后,在长文档任务上始终优于 RoBERTa。

一句话总结现实影响:对于经常需要处理长文档的下游 NLP 任务,Longformer 体系结构可能会有更明显的优势,这些任务包括文件分类、问答、共指解析、总结、语义搜索等。

5、GAN 的巧妙运用之 ELECTRA

诸如 BERT 和 XLNet 这类颇受欢迎的语言模型,在预训练任务中会屏蔽一小部分未标记的输入,然后训练网络以恢复此原始输入。

尽管这种名叫 MLM(Masked language modeling)的训练方式效果很好,但是由于它只能从一小部分 tokens(通常约 15%)中学习,因此其数据效率并不是特别高。这种方式迁移到下游 NLP 任务时能够得到较好的结果,但往往需要大量的算力。

作为替代方案,斯坦福大学和谷歌大脑的研究人员基于 BERT 的模型,与 GAN 的想法相融合,提出一种新的预训练方法 ——RTD ,replaced token detection。RTD 不会对输入进行遮蔽,而是从生成器中采样得到可信的 tokens,再替换掉原始输入上的 tokens。

结果显示,该方法可显着加快下游 NLP 任务的训练速度并提高准确性:ELECTRA-Small 的 GLUE 得分为 79.9,优于同类的 BERT 模型(得分为 75.1)和更大的 GPT 模型(得分为 78.8);可与 XLNet 和 RoBERTa 媲美的 ELECTRA 模型,仅使用其预训练计算量的 25%;ELECTRA-Large 在 GLUE 和 SQuAD 基准测试中优于其他最新模型,同时仍需要较少的预训练计算。

一句话总结现实影响:由于其计算效率高,ELECTRA 方法可使从业者更容易使用预训练的文本编码器。

6、GPT-3 的诞生

如果每一个新的语言任务都需要一个与之对应的、标签化了的数据集,那这绝对会限制语言模型的适用性。

考虑到语言任务的范围很广,而且通常很难收集到大量带标注、可用于训练的数据集,OpenAI 的研究人员提出了另一种解决方案,即扩大语言模型的规模,训练出含 175 B 参数的 GPT-3。

该团队希望 GPT-3 能够成为更通用化的 NLP 模型,解决当前 BERT 等模型的两个不足之处:对领域内有标记数据的过分依赖,以及对于领域数据分布的过拟合。

他们在三种不同的设置中评估了 GPT-3 :

?Few-shot learning,在推理时给模型一些任务演示(通常是 10 到 100),但不允许权重更新。

?One-shot learning,仅允许一次演示,以及对任务的自然语言描述。

?Zero-shot,不允许进行演示且模型只能访问任务的自然语言描述时。

这三种评估表明,只训练了一个语言模型、没有针对任何任务进行 Fine-tuning 的 GPT-3,可以完成多项 NLP 任务,并且每一项任务都可以得到很好的效果。

也就是说,当将这样的语言模型扩展到前所未有的参数数量时,该语言模型本身可以用作少样本学习的工具,无需任何额外的训练就可以在许多任务上取得非常有竞争力的表现。

一句话总结现实影响:一个带有 175B 参数的模型,其资源消耗也是不符合现实考虑的,但是如果研究人员设法将此模型精简为可行的大小,则可以将其应用于各种语言任务,包括问答和广告文案生成。

声明: 本文由入驻OFweek维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。
侵权投诉

下载OFweek,一手掌握高科技全行业资讯

还不是OFweek会员,马上注册
打开app,查看更多精彩资讯 >
  • 长按识别二维码
  • 进入OFweek阅读全文
长按图片进行保存