https://arxiv.org/pdf/1904.03396.pdf
数据到文本的生成在概念上可以分为两部分:信息的排序和结构化(规划/计划),以及生成描述信息的流畅语言(实现)。现代神经生成系统将这两个步骤合并为一个简单的端到端可分系统。本文建议将生成过程分成一个忠实于输入的symbolic text-planning符号文本规划阶段,然后是一个只关注实现的神经生成阶段。
为了训练plan-to-text计划-文本生成器,本文提出了一种将参考文本与相应的文本规划相匹配的方法。对于推理时间,本文规定了一种为新输入选择高质量文本计划的方法。
在WebNLG基准上实现并评估了本文的方法。结果表明,将文本计划与神经实现分离确实提高了系统的可靠性和充分性,同时保持了流畅的输出。同时观察到BLEU分数和人工评估都有提高。本文的方法的另一个好处是能够输出同一输入的不同实现,为显示控制生成的文本结构铺平道路。
为系统提供一组描述事实(实体及其之间的关系)的RDF三元组,并且必须产生对事实可信的流畅的文本。
三元组的例子:
John, birthPlace, London
John, employer, IBM
可能的输出:
其他可能的输出:
John, who works for IBM, was born in London.
London is the birthplace of John, who works for IBM.