BET:一种用于数据增强的且基于Transformer模型识别复述上下文的回译方法

     深度学习架构如BERT、XLNet、RoBERTa和ALBERT,已被证明在很多NLP任务上是强大的。然而,在这些架构上训练的数据集在规模和通用性方面是固定的。为了缓解这个问题,本文采用了一个最inexpensive的解决方案来更新这些数据集,这种方法为BET,通过这种方法分析了基于Transformer的架构上的回译数据增强。使用Google Translate API 以及选择了来自10个不同语系的中间语言,在基于Transformer的框架下对自动复述识别的结果进行了外部评估。发现表明,BET在微软研究复述语料库(MRPC)上的转述识别性能在准确率和F1得分上都提高了3%以上。本文还分析了在数据少的情况下,对Twitter复述语料库(TPC)和Quora问题对(QQP)的增强作用。在许多低数据情况下,观察到从测试集上的失败模型转换到了合理的性能。结果表明,BET是一种非常有效的数据增强技术:可以推动现有数据集的最新水平,并引导深度学习架构在一百个样本的低数据系统中的利用。

1. Introduction

    机器学习和深度学习算法最近取得了令人印象深刻的成果。这种成功的部分原因是大量的标注数据。大多数公共 NLP 数据集缺乏大量的数据,这限制了模型的准确性。另一方面,提供大量数据是昂贵和耗时的。在本文中,打算通过一种简单的数据增强技术 BET 来增加自然语言数据的大小。

    数据增强在计算机视觉任务中已经得到了广泛的应用 ,但是在 NLP 中还没有广泛的应用。在过去的几年里,NLP 中的数据增强引起了人们越来越大的兴趣。增加文本数据的大小既昂贵又具有挑战性。因此,在最先进的技术(SOTA)中看到的努力较少。在本文中,使用了基于短语的翻译的最成功的方法之一回译法。换句话说,我们认为反向翻译技术是一种复述,我们评估了四种基于Transformer架构(BERT,XLNet,RoBERTa 和 ALBERT)上的数据增强效果。 

主要贡献如下:

本文的结构如下: