BET：一种用于数据增强的且基于Transformer模型识别复述上下文的回译方法

     深度学习架构如BERT、XLNet、RoBERTa和ALBERT，已被证明在很多NLP任务上是强大的。然而，在这些架构上训练的数据集在规模和通用性方面是固定的。为了缓解这个问题，本文采用了一个最inexpensive的解决方案来更新这些数据集，这种方法为BET，通过这种方法分析了基于Transformer的架构上的回译数据增强。使用Google Translate API 以及选择了来自10个不同语系的中间语言，在基于Transformer的框架下对自动复述识别的结果进行了外部评估。发现表明，BET在微软研究复述语料库（MRPC）上的转述识别性能在准确率和F1得分上都提高了3%以上。本文还分析了在数据少的情况下，对Twitter复述语料库（TPC）和Quora问题对（QQP）的增强作用。在许多低数据情况下，观察到从测试集上的失败模型转换到了合理的性能。结果表明，BET是一种非常有效的数据增强技术：可以推动现有数据集的最新水平，并引导深度学习架构在一百个样本的低数据系统中的利用。

1. Introduction

    机器学习和深度学习算法最近取得了令人印象深刻的成果。这种成功的部分原因是大量的标注数据。大多数公共 NLP 数据集缺乏大量的数据，这限制了模型的准确性。另一方面，提供大量数据是昂贵和耗时的。在本文中，打算通过一种简单的数据增强技术 BET 来增加自然语言数据的大小。

    数据增强在计算机视觉任务中已经得到了广泛的应用 ，但是在 NLP 中还没有广泛的应用。在过去的几年里，NLP 中的数据增强引起了人们越来越大的兴趣。增加文本数据的大小既昂贵又具有挑战性。因此，在最先进的技术(SOTA)中看到的努力较少。在本文中，使用了基于短语的翻译的最成功的方法之一回译法。换句话说，我们认为反向翻译技术是一种复述，我们评估了四种基于Transformer架构（BERT，XLNet，RoBERTa 和 ALBERT）上的数据增强效果。

主要贡献如下:

系统地将谷歌翻译(GT)语言划分为族群，并选择多达十种语言作为中间语言。
使用 BET 扩充了整个 MRPC 复述语料库，以及下采样版的 Quora和 Twitter 复述语料库，发布了该语料库供可重现使用。
利用增强的数据，我们分析了四种基于Transformer的模型在精确率、召回率、 f1-score和准确率方面的改进。

本文的结构如下：

在第二节中，我们回顾了最新的数据增强工作，然后讨论了在转述识别任务中所做的工作，特别是在MRPC转述语料库、Quora问题重复语料库和Twitter转述语料库上所做的工作。
在第三节中，我们解释了我们的数据、baseline和方法。
在第四节中，我们描述了我们的结果，并对它们进行了详细的讨论。
最后一部分对本文的结论、局限性和未来的工作进行了总结。