https://arxiv.org/pdf/1904.03396.pdf

Abstract

数据到文本的生成在概念上可以分为两部分:信息的排序和结构化(规划/计划),以及生成描述信息的流畅语言(实现)。现代神经生成系统将这两个步骤合并为一个简单的端到端可分系统。本文建议将生成过程分成一个忠实于输入的symbolic text-planning符号文本规划阶段,然后是一个只关注实现的神经生成阶段。

为了训练plan-to-text计划-文本生成器,本文提出了一种将参考文本与相应的文本规划相匹配的方法。对于推理时间,本文规定了一种为新输入选择高质量文本计划的方法。

WebNLG基准上实现并评估了本文的方法。结果表明,将文本计划与神经实现分离确实提高了系统的可靠性和充分性,同时保持了流畅的输出。同时观察到BLEU分数和人工评估都有提高。本文的方法的另一个好处是能够输出同一输入的不同实现,为显示控制生成的文本结构铺平道路。

1. Introduction

为系统提供一组描述事实(实体及其之间的关系)的RDF三元组,并且必须产生对事实可信的流畅的文本。

三元组的例子:

John, birthPlace, London

John, employer, IBM

可能的输出:

  1. John, who was born in London, works for IBM.

其他可能的输出:

  1. John, who works for IBM, was born in London.

  2. London is the birthplace of John, who works for IBM.