Abstract

本文提出了一种新的统一预训练语言模型(UNILM) ,该模型可以很好地适应自然语言理解NLU和生成NLG任务。该模型使用三种语言建模任务进行预训练: 单向预测、双向预测和seq2seq预测。通过使用共享的Transformer网络,利用特定的自注意掩码来控制预测条件所处的上下文,从而实现统一的模型。在 GLUE 基准测试方面,在 SQuAD 2.0和 CoQA 问答任务方面都优于 BERT 。

此外,UNILM 在5个自然语言生成数据集上取得了SOTA,包括

  1. 将 CNN/DailyMail 摘要抽取的 ROUGE-L 提高到40.51(2.04绝对改进)
  2. Gigaword 提取的总结式 ROUGE-L 为35.75(0.86绝对改进) ,
  3. CoQA 生成式问题 F1得分为82.5(37.1绝对改进) ,
  4. SQuAD问题生成式 BLEU-4为22.12(3.75绝对改进) ,
  5. DSTC7文档对话响应式 NIST-4为2.67(人类性能为2.65)。

1. Introduction

语言模型(LM)的预训练在各种自然语言处理任务中大大推动了技术水平的提高。预训练的语言模型使用大量的文本数据并根据上下文预测单词的方式来学习上下文的文本表述,并且可以进行微调以适应下游的任务。

不同类型的预训练语言模型一般采用不同的预测任务和训练目标,如表1所示:

Untitled

作者提出的UNiLM既能NLU也能NLG,它是一个多层的Transformer网络组成,在大量的文本上进行预训练,为三种类型的无监督语言建模目标进行了优化,如表2所示

Untitled