文本摘要提取和生成-梁玉琴

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

文本摘要提取和生成

1、问题定义

自动文本摘要(Automatic Text Summarization)技术,又称自动文摘,是自然语言处理中的重要问题之一。自动文摘是利用计算机通过算法自动地从长文本或文本集合中提炼出能准确反映文本中心内容的短文,在信息检索、舆情分析、内容审查等领域都具有较高的研究价值。

自动文摘根据不同的标准有不同的分类划分:

(1)按照是否提供上下文环境,分为面向查询的自动文摘和普通自动文摘;

(2)按照不同的用途,分为指示性文摘和报道性文摘;

(3)按照文档数量,分为单文档自动文摘和多文档自动文摘;

(4)按照生成方法,分为抽取式自动文摘和生成式自动文摘;

2、技术和方法

目前,自动文本摘要的实现方式主要分为抽取式方法和生成式方法。

抽取式方法是从从原始文档中提取关键文本单元来组成摘要,广义上来说是一个二元分类问题,判断文本单元是否属于摘要内容。优点是能够保留原文章的显著信息,语法正确;缺点是会产生大量冗余信息,对短文本不友好,连贯性得不到保证。

生成式方法是根据对原始文本的理解来形成摘要,对训练数据的文本摘要数据对进行学习,根据不同的算法生成摘要。优点是可以生成原文本没有的单词,更加接近摘要的本质,具有生成高质量摘要的潜力;缺点;需要大量训练数据。

自动文摘的研究工作技术框架为:内容表示——权重计算——内容选择——内容组织。各种技术优化也是在此基础上进行的。

(1)内容表示:一是把原始文本划分成为文本单元的预处理工作,可以是分字、词、句等;二是使用语义信息、主题模型、图等方法,对原文进行更深层次的表示;三是针对深度学习而言,使用词向量的方式,来表达文本单元。

(2)权重计算:对文本单元进行相应的权重评分。

(3)内容选择:根据前面进行的权重得分,选择文本单元进入摘要候选集

(4)内容组织:整理候选集中的内容得出最终摘要。

3、研究

15年开始,Seq2Seq模型在文本生成领域,使用端到端的思想,把输入当成一段序列,输出也看成一段序列进行编码和解码,该模型主要是由编码器(encoder)和解码器(decoder)构成。

Seq2Seq模型第一次被用于自动摘要时,是由A. M. Rush等人提出的,和先前的抽取式方法相比,此模型首先要“理解”文本语义,然后概括形成摘要,这种方法过程更像是人工总结摘要的过程。使用端到端的思想,把输入当成一段序列,输出也看成一段序列进行编码和解码,该模型主要是由编码器(encoder)和解码器(decoder)构成。之后学者们分别对编码器和解码器进行研究,通过使用不同的神经网络以及不同的注意力机制,分别有着不同的效果。

使用过的神经网络主要有CNN、RNN、LSTM(特殊的RNN )、BiLSTM(双向LSTM)等

注意力部分则是使用Attention机制、完全建立在注意力之上的Transformer模型和Transformer叠加变形之后的BERT模型。值得一提的是,BERT属于预训练模型,首先使用训练集进行预训练得到参数,之后在下游其他任务中直接使用或者进行微调后使用。

一开始学者在研究文本摘要提取时,编码器和解码器都采用了RNN,这样可以得到更全面的有关序列的上下文信息,很大程度上改善了摘要生成结果。

然后有人将抽取式与生成式方法进行结合,在生成式模型中加入了句子抽取技术。先使用WordNet进行句子的抽取,编码器部分使用双向LSTM,分别对原文本和抽取的句子编码。模型既关注重要性高的句子,也兼顾重要性相对较低的句子。

为了使解码器能关注到文本中的重点部分,注意力机制被加进来了。这样解码器在解码时,不会依赖原本固定的语义向量。模型在机器翻译的任务当中,取得了瞩目的成绩。

在一开始加入注意力机制之后,Seq2Seq 模型更加完善。但是使用注意力机制时,往往会忽略输入和输出序列之间的对应关系,使得解码器重复关注输入序列的某些部分,从而输出序列也产生重复。有人提出可以使用覆盖机制来解决重复关注的问题,将序列中词项的位置信息用注意力分布来表示。接下来就是self attention的引入,自注意力机制能够学习句子的内部结构,从而解决之前的问题。

Google 在提出了Transformer模型之后,大家也是尝试把transformer带到了文本摘要提取领域。之后的BERT更是在文本摘要提取上取得了优秀的成绩。

大家在生成式摘要中大多都是利用序列到序列模型完成生成任务,但是这类模型存在一些训练难题,如最大似然估计的训练难题。14年的时候提出了将生成式对抗网络(Generative Adversarial Networks, GAN)应用于文本摘要生成任务中。GAN的主要构成分为两部分:生成器和判别器。GAN 本质是一个判别模型,利用判别器,将得到的信息反馈给生成器,以指明生成器的训练方向。

在面对图像这类连续型数据时,GAN表现良好,但是GAN却很难解决在文本这种离散型数据任务中存在的问题。主要原因是,由于数据离散,判别器不能将梯度进行反向传播,从而不能对生成器进行指导。

为了解决离散造成的梯度不可导问题,有人提出了使用LSTM作为生成器,用CNN作为判别器。

然后为了进一步解决离散输出的问题,提出了Rank GAN模型;针对GAN模型训练不稳定的问题,提出了WGAN模型;融合了强化学习,提出了SeqGAN。SeqGAN 模型也是由生成器及判别器构成。生成器主要由LSTM 网络构成。判别器当做外部环境,主要由CNN网络构成。

为了解决非信息性和稀疏性问题,提出了LeakGAN模型。LeakGAN可以避免之前提到的问题,其中包括了离散输出问题、奖励值稀疏问题、判别器的评分问题等等。该模型可以生成质量较好的文本,在未来的文本生成方向上,具有广阔的应用前景。经过一系列相关实验,该模型在不同数据集中,包括中文短文本、英文长文本方面取得了优秀的成果。

4.我的实验

我采用的是添加Attention机制的seq2seq模型,编码器由一系列LSTM单元组成。模型结构如下图:

相关文档
最新文档