京东AI研究院2020年学术顶会入选论文解析——基于关键词自动生成摘要

2020-07-04

人工智能技术在电商领域，有着丰富的应用场景。应用场景是数据入口，数据通过技术得到提炼，反过来又作用于技术，二者相辅相成。

京东基于自然语言理解与知识图谱技术，开发了商品营销内容的AI智能写作服务。并将此项技术应用到了京东零售【发现好货】频道中。

通过AI智能写作创作的数十万商品营销图文素材，不仅填补了商品更新与达人写作内容更新之间的巨大缺口，也提升了内容频道的内容丰富性。

同时，京东AI智能写作生成的营销文案内容在曝光点击率、进商详转化率等方面其实都做到了优于人工创作的营销内容。在刚刚结束的京东618，AI智能写作产品已覆盖京东零售超过2000个商品品类，在图文内容营销上，智能写作产品撰写的导购素材相比于人工撰写内容点击转化率超过40%。接下来让我们通过解读京东AI研究院入选 AAAI 2020 的论文来一起来看看，AI是如何做到针对不同群体打造不同营销策略及不同风格的营销文案，从而提高营销转化率的。

自动文本摘要（简称“自动文摘”）是自然语言处理领域中的一个传统任务，其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本，获得一段包含了其中最重要信息的简化文本。常用的自动文摘方法包括抽取式自动文摘（Extractive Summarization)和生成式自动文摘（Abstractive Summarization)。抽取式自动文摘通过提取给定文本中已存在的关键词、短语或句子组成摘要；生成式自动文摘通过对给定文本建立抽象的语意表示，利用自然语言生成技术，生成摘要。

本文所介绍的是基于关键词指导的生成式句子摘要方法，该方法融合了抽取式自动文摘和生成式自动文摘，在Gigaword句子摘要数据集上与对比模型相比，取得了更好的性能。

论文链接：http://box.jd.com/sharedInfo/B2234BB08E365EEC；

1、生成式句子摘要

生成式句子摘要(Abstractive Sentence Summarization)任务的输入是一个较长的句子，输出是该输入句子的简化短句。

我们注意到，输入句子中的一些重要词语（即关键词）为摘要的生成提供了指导线索。另一方面，当人们在为输入句子创作摘要时，也往往会先找出输入句子中的关键词，然后组织语言将这些关键词串接起来。最终，生成内容不仅会涵盖这些关键词，还会确保其流畅性和语法正确性。我们认为，相较于纯粹的抽取式自动文摘和生成式自动文摘，基于关键词指导的生成式自动文摘更接近于人们创作摘要时的习惯。

我们举一个简单的句子摘要的例子。如图1所示，我们可以大致将输入句子和参考摘要的重叠的词（停用词除外）作为关键词，这些重叠的词语覆盖了输入句子的要点。例如，我们通过关键词“世界各国领导人”“关闭”和“切尔诺贝利”，可以获取输入句子的主旨信息，即“世界各国领导人呼吁关闭切尔诺贝利”，这与实际的参考摘要 “世界各国领导人敦促支持切尔诺贝利核电站关闭计划”是相吻合的。这种现象在句子摘要任务中很常见：在Gigaword句子摘要数据集上，参考摘要中的词语超过半数会出现在输入句子中。

2、模型概述

句子摘要任务的输入为一个较长的句子，输出是一个简短的文本摘要。我们的动机是，输入文本中的关键词可以为自动文摘系统提供重要的指导信息。首先，我们将输入文本和参考摘要之间重叠的词（停用词除外）作为Ground-Truth关键词，通过多任务学习的方式，共享同一个编码器对输入文本进行编码，训练关键词提取模型和摘要生成模型，其中关键词提取模型是基于编码器隐层状态的序列标注模型，摘要生成模型是基于关键词指导的端到端模型。关键词提取模型和摘要生成模型均训练收敛后，我们利用训练好的关键词提取模型对训练集中的文本抽取关键词，利用抽取到的关键词对摘要生成模型进行微调。测试时，我们先利用关键词提取模型对测试集中的文本抽取关键词，最终利用抽取到的关键词和原始测试文本生成摘要。

（1）多任务学习

文本摘要任务和关键词提取任务在某种意义上非常相似，都是为了提取输入文本中的关键信息。不同点在于其输出的形式：文本摘要任务输出的是一段完整的文本，而关键词提取任务输出的是关键词的集合。我们认为这两个任务均需要编码器能够识别出输入文本中的重要信息的能力。因此，我们利用多任务学习框架，共享这两个任务编码器，提升编码器的性能。

（2）基于关键词指导的摘要生成模型

我们受Zhou等人工作[1]的启发，提出了一种基于关键词指导的选择性编码。具体来说，由于关键词含有较为重要的信息，通过关键词的指导，我们构建一个选择门网络，其对输入文本的隐层语义信息进行二次编码，构造出一个新的隐层。基于这个新的隐层进行后续的解码。

我们的解码器基于Pointer-Generator网络[2]，即融合了复制机制的端到端模型。对于Generator模块，我们提出直连、门融合和层次化融合的方式对原始输入文本和关键词的上下文信息进行融合；对于Pointer模块，我们的模型可以选择性地将原始输入和关键词中的文本复制到输出摘要中。

3、实验与分析

（1）数据集

在本次实验中，我们选择在Gigaword数据集上进行实验，该数据集包含约380万个训练句子摘要对。我们使用了8000对作为验证集，2000对作为测试集。

（2）实验结果

表1显示了我们提出的模型比没有关键词指导的模型表现更好。我们测试了不同的选择性编码机制，分别是输入文本的自选择，关键词选择和互选择，实验结果显示互选择的效果最佳；对于Generator模块，我们发现层次化融合的方式要优于其他两种融合方式；我们的双向Pointer模块比原始的仅能从输入文本中复制的模型表现更好。

4、总结

本文致力于生成式句子摘要的任务，即如何将一个长句子转换成一个简短的摘要。我们提出的模型可以利用关键词作为指导，生成更加优质的摘要，获得了比对比模型更好的效果。

1）通过采用了多任务学习框架来提取关键词和生成摘要；

2）通过基于关键字的选择性编码策略，在编码过程中获取重要的信息；

3）通过双重注意力机制，动态地融合了原始输入句子和关键词的信息；

4）通过双重复制机制，将原始输入句子和关键词中的单词复制到输出摘要中。

在标准句子摘要数据集上，我们验证了关键词对句子摘要任务的有效性。

注释：

[1] Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.

[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.