结合全局词向量特征的循环神经网络语言模型_李华

合集下载

词向量空间模型

词向量空间模型

词向量空间模型词向量空间模型概述词向量空间模型(Word Embedding)是一种将单词映射到向量空间的技术,它将每个单词表示为一个固定长度的实数向量,使得在这个向量空间中,相似的单词距离更近。

这种技术可以用于自然语言处理中的各种任务,如文本分类、情感分析、机器翻译等。

原理在传统的自然语言处理中,通常使用基于人工设计的特征来表示单词或句子。

例如,在文本分类任务中,可以使用单词出现频率、TF-IDF 值等作为特征。

但是,这种方法存在以下几个问题:1. 特征维度过高:对于一个包含大量单词的文本,其特征维度会非常高,导致计算复杂度增加。

2. 特征不具有泛化性:由于特征是基于人工经验设计的,因此可能无法适应新颖语料库中出现的新单词或新语言。

3. 特征之间缺乏关联性:由于特征是独立设计的,在表示文本时可能无法充分考虑不同特征之间的关系。

针对以上问题,词向量空间模型采用了一种基于神经网络的方法,将单词表示为一个向量,使得相似的单词距离更近。

具体来说,词向量模型通过训练一个神经网络,将每个单词映射到一个低维实数向量空间中。

训练过程在训练过程中,模型输入是一段文本序列,输出是每个单词在向量空间中的表示。

具体来说,模型首先将每个单词表示为一个one-hot向量(即只有一个元素为1,其余都为0),然后通过一个全连接层将其映射到向量空间中。

全连接层的权重矩阵就是我们需要学习的参数。

在训练过程中,我们使用大量的文本数据来调整权重矩阵,使得每个单词在向量空间中的表示能够最好地反映其含义。

具体来说,在训练过程中,我们使用上下文窗口(Context Window)来定义每个单词周围的上下文信息,并将这些信息作为输入序列传递给模型。

例如,在下图所示的句子“the cat sat on the mat”中,我们可以定义一个大小为3的上下文窗口,并将其分别应用于每个单词上:![image.png](attachment:image.png)对于每个单词,我们将其one-hot向量作为输入,经过全连接层后得到其在向量空间中的表示。

词向量空间模型

词向量空间模型

词向量空间模型词向量空间模型是自然语言处理中常用的一种技术,用于将文本表示为向量形式,从而实现对文本的语义理解和相关计算。

本文将介绍词向量空间模型的基本原理、应用场景以及发展趋势。

一、词向量空间模型的基本原理词向量空间模型基于分布假设,即在大量文本中,具有相似语境的词语往往具有相似的语义。

通过对大规模文本语料进行训练,词向量空间模型能够将每个词语表示为一个实数向量,使得语义相似的词语在向量空间中距离较近,而语义不相似的词语距离较远。

具体而言,词向量空间模型通过计算词语之间的共现概率或相似度,构建词语之间的语义关系。

常用的词向量模型包括基于矩阵分解的潜在语义分析(LSA)方法、基于预测的连续词袋模型(CBOW)和Skip-gram模型等。

这些模型能够从大规模语料中学习到词语之间的语义关系,并将其表示为高维向量。

词向量空间模型在自然语言处理领域有着广泛的应用。

其中,最重要的应用之一是词语的相似度计算。

通过计算词向量之间的距离,可以判断两个词语之间的语义相似度,从而实现词语的聚类、分类等任务。

此外,词向量空间模型还可以用于文本分类、情感分析、机器翻译、问答系统等自然语言处理任务,提升模型的性能和效果。

三、词向量空间模型的发展趋势随着深度学习的发展,词向量空间模型也得到了进一步的改进和扩展。

近年来,基于神经网络的词向量模型,如Word2Vec、GloVe 等,取得了很大的成功。

这些模型能够更好地捕捉词语之间的语义关系,并提供更加丰富的语义表示。

随着深度学习技术的不断发展,词向量空间模型也在不断拓展应用范围。

例如,将词向量与其他特征进行联合训练,可以实现更复杂的自然语言处理任务。

同时,将词向量与其他模型结合,如循环神经网络(RNN)、卷积神经网络(CNN)等,可以进一步提升模型的性能。

总结起来,词向量空间模型是自然语言处理中的重要技术之一。

通过将文本表示为向量形式,实现了对文本的语义理解和相关计算。

词向量空间模型在词语相似度计算、文本分类、情感分析等任务中有着广泛的应用,并且随着深度学习技术的发展,词向量空间模型也在不断改进和拓展。

基于深度学习的领域实体属性词聚类抽取研究

基于深度学习的领域实体属性词聚类抽取研究

基于深度学习的领域实体属性词聚类抽取研究苏丰龙;谢庆华;邱继远;岳振军【摘要】属性词的聚类是领域实体属性抽取中的一个重要步骤.在未知领域和大量文本中,人工标注寻找十分困难.本文将一种基于深度学习框架的词语嵌入表示方法(Word Embedding)引入到领域实体属性词聚类研究中,在无监督条件下解决大规模语料、领域实体属性词表人工参与构建代价较高的问题,并进行了适当的扩展,取得了较好的效果,可以为信息抽取等后续高级任务提供较好服务.【期刊名称】《微型机与应用》【年(卷),期】2016(035)001【总页数】4页(P53-55,59)【关键词】词向量;深度学习;词语聚类;属性抽取【作者】苏丰龙;谢庆华;邱继远;岳振军【作者单位】解放军理工大学通信工程学院,江苏南京210007;解放军理工大学国防工程学院,江苏南京210007;解放军理工大学通信工程学院,江苏南京210007;解放军理工大学通信工程学院,江苏南京210007【正文语种】中文【中图分类】TP391随着机器学习理论的发展,基于自然语言处理的传统信息抽取技术面临着各种机遇和挑战。

特别是有监督的学习方法需要大量人工去标注语料,代价昂贵,成本较高,在现行的机器学习应用研究当中,逐步被半监督、无监督和混合学习方法取代。

在领域实体属性抽取这一课题中,数据来源广泛,载体形式多样,大量的信息载体在互联网上生成和传播,从结构化的数据库,半结构化的百科网页,到完全非结构化的自由文本,给信息抽取工作带来了各种挑战和机遇。

传统的监督学习方法通过对大量已经标注的样本来学习得到映射模型,然后再对未知样本进行标签预测。

本文针对前人在使用监督学习过程中语料标注工作量大、代价高的实际,提出了一种基于词语嵌入式表示的无监督词语聚类方法。

假设同类别的属性词在文本中具有相同或相近的语用和语境,利用深层神经网络架构学习出词语的嵌入式表示,也称词向量(Word Embedding),使其带上文本空间的各种特征信息,有助于降低大规模语料人工寻找构建属性词表的困难。

循环智能 大语言模型

循环智能 大语言模型

循环智能大语言模型
循环智能大语言模型是一种基于深度学习的人工智能技术,它可以通过学习大量的语言数据,自动生成符合语法和语义规则的文本。

这种技术已经被广泛应用于自然语言处理、机器翻译、语音识别等领域,成为了人工智能领域中的重要技术之一。

循环智能大语言模型的核心是循环神经网络(RNN),它可以处理序列数据,如文本、音频、视频等。

RNN的特点是可以将前面的信息传递到后面,从而实现对序列数据的建模。

在循环智能大语言模型中,RNN可以将前面的文本信息作为输入,然后根据学习到的模型,生成后面的文本。

循环智能大语言模型的训练需要大量的语言数据,这些数据可以来自于互联网、书籍、新闻等。

在训练过程中,模型会不断地学习语言的规则和模式,从而提高生成文本的质量和准确性。

同时,循环智能大语言模型还可以通过迁移学习的方式,将已经训练好的模型应用到新的领域中,从而加速模型的训练和优化。

循环智能大语言模型的应用非常广泛,例如在自然语言处理中,可以用于文本分类、情感分析、命名实体识别等任务;在机器翻译中,可以将一种语言翻译成另一种语言;在语音识别中,可以将语音转换成文本。

此外,循环智能大语言模型还可以用于生成文本,如自动写作、自动摘要等。

循环智能大语言模型是一种非常有用的人工智能技术,它可以帮助我们更好地理解和处理语言数据,从而实现更加智能化的应用。

随着技术的不断发展和应用的不断扩展,循环智能大语言模型将会在更多的领域中发挥重要作用。

在自然语言处理中使用循环神经网络的技巧

在自然语言处理中使用循环神经网络的技巧

自然语言处理(Natural Language Processing,NLP)是人工智能领域的一个重要分支,旨在实现计算机对自然语言的理解和处理。

循环神经网络(Recurrent Neural Network,RNN)是一种深度学习技术,被广泛应用于NLP中。

本文将探讨在自然语言处理中使用循环神经网络的一些技巧和方法。

一、序列建模循环神经网络是一种适用于序列数据的神经网络模型,适合处理自然语言中的序列信息。

在NLP中,文本通常被看作是一个序列,每个单词或字符都是序列中的一个元素。

循环神经网络通过对序列数据进行建模,能够捕捉到文本中的时序关系和上下文信息,从而更好地理解和处理自然语言。

二、长短时记忆网络传统的循环神经网络在处理长序列数据时容易出现梯度消失或梯度爆炸的问题,导致模型难以捕捉长距离依赖关系。

长短时记忆网络(Long Short-Term Memory,LSTM)是一种特殊的循环神经网络结构,通过门控机制有效地解决了这一问题。

在NLP中,LSTM能够更好地处理长文本序列,更准确地捕捉文本中的语义和逻辑关系,因此被广泛应用于文本生成、语言建模等任务。

三、双向循环神经网络双向循环神经网络(Bidirectional Recurrent Neural Network,Bi-RNN)是一种结合了前向和后向信息的循环神经网络模型。

在NLP中,文本的理解和处理通常需要考虑上下文信息,而双向循环神经网络能够同时考虑文本的前后信息,从而更全面地理解文本的语义和逻辑关系。

在词性标注、命名实体识别等NLP任务中,双向循环神经网络能够显著提升模型的性能。

四、注意力机制注意力机制(Attention Mechanism)是一种模拟人类注意力的机制,能够使模型在处理序列数据时更加关注重要的信息。

在NLP中,注意力机制被广泛应用于机器翻译、文本摘要等任务,能够使模型更好地理解和处理长文本序列。

通过引入注意力机制,循环神经网络能够更加准确地对文本进行建模,捕捉到文本中的重要信息,提高模型的性能。

自然语言处理中常见的语言模型训练方法(Ⅲ)

自然语言处理中常见的语言模型训练方法(Ⅲ)

在自然语言处理领域,语言模型是一种重要的技术,它可以帮助计算机更好地理解和处理人类语言。

语言模型的训练方法多种多样,本文将介绍一些常见的语言模型训练方法。

一、基于统计的语言模型训练方法基于统计的语言模型是早期的语言模型训练方法,它的核心思想是利用大规模文本数据来统计单词或者短语的出现频率,从而推断出文本的语言规律。

其中最著名的方法是n-gram模型,它通过统计n个连续单词的出现概率来建模语言。

n-gram模型的训练方法包括基于频率的最大似然估计和平滑技术,通过这些方法可以有效地训练出一个较为准确的语言模型。

二、基于神经网络的语言模型训练方法随着深度学习技术的发展,基于神经网络的语言模型逐渐成为主流。

这类语言模型的训练方法一般包括两个阶段:首先是将文本数据转换成离散的表示,比如词向量或者字符向量;然后是利用神经网络模型对这些表示进行训练,从而学习文本的语言规律。

目前最流行的神经网络语言模型包括循环神经网络(RNN)、长短时记忆网络(LSTM)和Transformer模型等,它们在语言模型训练中取得了显著的成果。

三、迁移学习在语言模型训练中的应用迁移学习是一种利用已有知识来加速新任务学习的方法,它在语言模型训练中也被广泛应用。

一种常见的迁移学习方法是使用预训练的语言模型来初始化目标任务的模型参数,然后通过微调的方式对其进行训练。

这种方法能够显著减少目标任务的训练时间,并且通常能取得更好的效果。

目前,预训练的语言模型比如BERT、GPT等已经成为了许多自然语言处理任务的标配模型。

四、无监督学习在语言模型训练中的应用无监督学习是一种不依赖标注数据而进行模型训练的方法,它在语言模型训练中有着独特的优势。

例如,一种常见的无监督学习方法是使用自编码器来学习文本数据的低维表示,然后再利用这些表示进行语言模型的训练。

这种方法在缺乏大规模标注数据的场景下尤为有用,它能够帮助我们训练出更具泛化能力的语言模型。

五、结合知识图谱的语言模型训练方法知识图谱是一种用于表示丰富知识的图形结构,它在语言模型训练中也得到了广泛的应用。

人工智能自然语言技术练习(试卷编号181)

人工智能自然语言技术练习(试卷编号181)

人工智能自然语言技术练习(试卷编号181)1.[单选题]以下是softmax函数的是()A)概率B)归一化C)损失函数D)空间答案:B解析:2.[单选题]关于距离空间其主要目的是A)求相关性B)构成线性空间C)度量后比较D)求信息熵答案:C解析:3.[单选题]语料库的加工方式不包括A)人工方式B)半自动方式C)自动方式D)干预方式答案:D解析:4.[单选题]如果对数据的特征做了归一化,会有什么优点A)提高复杂关系的拟合能力B)不确定C)训练数据归一化后,容易更快地通过梯度下降找 到最优解。

D)以上都正确答案:C解析:5.[单选题]常用的激活函数relu,下列对该激活函数描述正确的是?A)引用了无效的单元格地址B)过滤无效神经元C)不是激发函数D)将正数保留,将负数置06.[单选题]LSTM可以做特征提取,在以下的几个模型当中,哪个模型中使用到了A)bertB)GPTC)GPT-2D)ELMO答案:D解析:7.[单选题]集成学习是机器学习的重要组成部分,以下说法正确的是A)通过变量和因变量之间的一次函数关系构建的B)通过找到一个最优的超平面去完美的分类C)就是将多个机器学习模型组合起来,共同工作以达到优化算法的目的D)以上都正确答案:C解析:8.[单选题]在做传统NLP中的情感分析中,我们可以如何去思想这类人物A)使用机器学习的算法获取最终的情感B)使用深度学习的知识获取情感C)使用神经网络进行判断D)手工手机情感极性词典答案:D解析:9.[单选题]RNN和CNN下面说法正确的是A)RNN在处理长依赖序列问题的时候效果会比较好B)RNN属于卷积神经网络C)CNN在处理长序列问题会更好D)CNN又叫循环神经网络答案:A解析:10.[单选题]使用的TensorFlow中的一个方法进行数据的计算tf.subtract,最终会返回什么类型的数据A)TensorB)数组C)矢量D)范数答案:A11.[单选题]向量空间的别称是:A)线性空间B)内积空间C)赋范空间D)希尔伯特空间答案:A解析:12.[单选题]国标码用()个字节表示一个汉字,每个字节的ASCII码都大于()。

神经语言程序(NLP)教学法的模型构建

神经语言程序(NLP)教学法的模型构建

神经语言程序(NLP)教学法的模型构建【摘要】神经语言程序(NLP)教学法的模型构建在教育领域中具有重要意义。

本文从神经网络在NLP教学法中的应用、语言模型的构建、情感分析模型的构建、文本生成模型的构建以及数据预处理与特征工程等方面展开讨论。

研究指出,通过构建有效的模型可以提高教学效果,帮助学生更好地理解和应用语言知识。

结合实际案例分析,本文总结了NLP教学法的模型构建在提升学习者语言能力和情感认知方面的积极作用。

未来,可以进一步探索更多的模型构建方法,推动NLP教学法在教育领域的应用前景。

神经语言程序(NLP)教学法的模型构建将为教育改革和语言教学带来新的发展机遇。

【关键词】神经语言程序(NLP)教学法、模型构建、神经网络、语言模型、情感分析模型、文本生成模型、数据预处理、特征工程、总结、未来发展、应用前景。

1. 引言1.1 神经语言程序(NLP)教学法的模型构建概述神经语言程序(NLP)是人工智能领域中一门重要的研究方向,它致力于实现计算机与人类自然语言的高效交互与理解。

在教学领域,NLP技术的应用也日益受到重视,通过构建NLP模型来辅助教育教学过程,提高学生的学习效果和教学效率已经成为一个热门研究方向。

神经网络作为NLP模型构建的核心技术,在教学法中发挥着重要作用。

神经网络可以通过大量的文本数据进行训练,从而学习语言中的规律和特征,实现自然语言处理和分析。

在NLP教学法中,利用神经网络构建各种模型,可以帮助教师和学生更好地理解语言、分析情感、生成文本等。

NLP教学法中还涉及到语言模型的构建、情感分析模型的构建、文本生成模型的构建等内容。

这些模型的构建需要对数据进行预处理和特征工程,以确保模型的准确性和有效性。

通过构建神经语言程序(NLP)教学法的模型,可以有效提升教育教学的质量和效率,为学生和教师提供更好的学习和教学体验。

神经语言程序(NLP)教学法的研究意义和应用前景将在接下来的内容中逐一展开。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[7 ] 度消失 ( Vanishing Gradient ) 问题 , 并且模型难以 优化, 使得 在 实 际 应 用 时 只 能 利 用 有 限 步 长 的 信 [6 ] [ 5 ]
所示, 由输入层 ( Input Layer ) 、 隐含层 ( Hidden Layer) 、 输出层 ( Output Layer ) 及 其 相 应 的 权 重 组 成。 hot 编码方式来 其中, 输入词向量 w ( t ) 可采用 One表示, 即当前位置的词为 1 , 其他词为 0 , 因此词向量 hot 编码方式给每个 维数与词汇表尺寸相同。 One词分配一个数字 ID, 这种方法简单易用, 因此广泛 应用于自然语言处理任务中。 循环神经网络的训 练过程大致为: 输入词向量 w ( t ) 经过隐含层的处 理, 在输出层产生待预测词的概率分布 。 其中, 隐 含层状态 s( t ) 包含了历史信息。 因此, 网络的输入 是由输入向量w ( t) 和上一时刻的隐含层的输出 s ( t -1 ) 构成, 用于计算当前隐含层的状态 s( t) ; 而 s ( t ) 加入到网络的训 又作为下一时刻词w ( t +1 ) 的历史, 练中。通过隐含层的不断循环, 在词预测的过程中 充分利用了历史信息。 循环神经网络的训练算法 使得在训练的过程中, 实际输出和期望输出之间会 产生一个误差信号, 误差信号向后传播至隐含层, 并随着时间不断减弱, 由此造成梯度消失问题, 限 制了网络对无限长距离历史信息的学习能力 。 为了增强网络学习长距离历史信息的能力 , 本 文采用改进的循环神经网络结构, 即在传统循环神 经网络 模 型 的 基 础 上 加 入 了 特 征 层 ( Feature Layer) , 网络结构如图 1 分别与隐含层和输出层相连, ( b) 所示。特征层 f ( t ) 表示额外的输入向量, 包含 了对输入词向量的补充信息。
( 解放军信息工程大学信息系统工程学院 ,河南郑州 450002 ) 摘 要: 针对循环神经网络语言模型对长距离历史信息学习能力不足的问题 , 本文提出了结合全局词向量特征
的循环神经网络语言模型 。首先利用 GloVe( Global Word Vectors ) 算法训练出全局词向量, 然后将其作为特征向 量输入到引入特征层的循环神经网络中进行训练 。 相对于局部词向量方法, 全局词向量能够利用全局统计信息 来训练出含有更加丰富的语义和句法信息词向量 。 为了验证新方法的性能, 本文在 Penn Treebank 和 Wall Street Journal 语料库上分别进行困惑度和连续语音识别实验 。实验结果表明结合全局词向量的循环神经网络语言模型 的困惑度相比传统的循环神经网络语言模型降低了 20. 2 % ,同时语音识别系统的词错误率降低了 18. 3 % 。 关键词: 循环神经网络; 语言模型; 全局词向量; 语音识别 中图分类号: TN912. 3 文献标识码: A DOI: 10. 16798 / j. issn. 1003-0530. 2016. 06. 011
图1
结合特征层的循环神经网络语言模型结构 The structure of recurrent neural network language model with feature layer
Fig. 1
第6 期

华 等: 结合全局词向量特征的循环神经网络向量 y ( t ) 与词汇表大小 V 有相同的维度。网络的参数训练采用通过时间的 反 向 传 播 算 法 ( BackPropagation Through Time , BPTT) 。输出向量 y( t) 代表在给定当前词 w ( t ) 、 上 下文向量 s( t -1 ) 和特征向量 f ( t ) 的情况下, 词汇表 中待预测词的概率分布。 隐含层和输出层的计算公式如下 : s ( t ) = σ ( Uw ( t ) + Ws ( t - 1 ) + F f ( t ) ) y( t) = g( Vs( t) + Gf( t) ) σ( z) 为 sigmoid 激活函数 σ ( z ) = 其中, 为 softmax 激活函数 g( z m ) = ( 1) ( 2) 1 , g ( z) 1+e -z
表明, 本文提出的方法不仅能够降低语言模型的困 惑度, 而且能够提高语音识别系统的识别率 。
2
结合特征层的循环神经网络语言模型
循环神经网络语言模型的网络结构如图 1 ( a )
构进行了优化, 利用一些子层来代替标准的输出层, 输出结构采用词聚类方法, 因此能够处理任意大小的 词汇量, 同时降低了前馈神经网络的运算量。 在前馈神经网络中, 信息是从输入单元到输出单 元的单向流动, 而现实生活中信息之间有着复杂的时 间关联性, 尤其对于语音信号这种序列输入的任务, 在对其进行建模时需要能够同时处理高维度的多种 输入信息, 但前馈神经网络缺乏学习输入信息的整体 Mikolov 等人 在 逻辑序列的能力。针对这一问题, 2010 年提 出 了 循 环 神 经 网 络 语 言 模 型 ( Recurrent Neural Network Language Model,RNNLM ) , 通过循环 层的定向循环, 能够实现对之前信息的有效利用, 因而能够充分分析输入信息之间的整体逻辑序列 , 具有对时间序列进行显性建模的能力。 为了降低 Mikolov 等人 对输 隐含层和输出层之间的运算量, 出层的结构进行了改进, 引入了分类层, 有效地提 高了网络的运算效率。 但是循环神经网络存在梯
[3 ]
, 因此在
提出了大规模分层神经
收稿日期: 2015-09-21 ; 修回日期: 2015-12-22
716




第 32 卷
针对模型的规模和训练数据的增 网络语言 模 型, 加, 通过切分语料、 并行化训练和减少每个子网络的 输出词汇大小, 在不影响词错误率的情况下大大缩减
[ 4 ] 了训练时间。2013 年, 李海生等人 针对输出层结
810] 息。文献[ 采用在循环神经网络中引入长短时 Term Memory ,LSTM ) 单元来避免 记忆( Long Short该问题, 用 LSTM 单元替代循环神经网络的隐含层 单元, 通过门控单元来控制信息的读写和存储 , 还 可以用 于 时 序 分 析 中 上 下 文 信 息 的 提 取 。 文 献 [ 11] 采用了基于局部词向量的神经网络语言模型 进行建模, 但仍然存在词向量所涵盖的语义和句法 信息受限的问题。 本文针对循环神经网络语言模型对历史信息 学习能力不足的问题, 首先利用语料库的全局统计 [12 ] 再将词向量作为特征向量输 信息训练出词向量 , 入到循环神经网络中, 以增强模型对长距离信息的 学习能力。 由于词向量在实际训练过程中使用了 上下文信息来编码词汇, 相对于局部词向量而言, 在代数运算下表现出更加丰富的语义和语法相似 性。为了验证本文算法的性能, 采用 Penn Treebank 语料库和 Wall Street Journal 语料库, 分别对困惑度 和连续语音识别的词错误率进行实验。 实验结果
第 32 卷 第 6 期 2016 年 6 月
文章编号: 1003-0530 ( 2016 ) 06-0715-09




JOURNAL OF SIGNAL PROCESSING
Vol. 32 No. 6 Jun. 2016
结合全局词向量特征的循环神经网络语言模型
李 华 屈 丹 张文林 王炳锡 梁玉龙
Recurrent Neural Network Language Model with Global Word Vector Features
LI Hua QU Dan ZHANG Wenlin WANG Bingxi LIANG Yulong
( Institute of Information System Engineering,PLA Information Engineering University,Zhengzhou,Henan 450002 ,China) Abstract : Aiming at the insufficient learning ability of long distance information for neural network based language model, a recurrent neural network language model with the global word vectors ( GloVe) is proposed in this paper. Firstly,global word vectors are trained by GloVe algorithm. Secondly,global word vectors are regarded as feature vector inputs to the recurrent neural network with feature layer. Compared with that of incorporating local word vectors, the GloVe based language model captures the semantic and syntactic information using global statistical information. Experiments on perplexity and continuous speech recognition are performed on Penn Treebank and Wall Street Journal corpus respectively. The results show that the relative perplexity improvement over the conventional recurrent neural network language model reaches 20. 2 % and the word error rate of speech recognition system decreases 18. 3 % . Key words: recurrent neural network; language model; global word vector; speech recognition
相关文档
最新文档