【CN110083833A】中文字词向量和方面词向量联合嵌入情感分析方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号
(43)申请公布日
(21)申请号 201910312290.6
(22)申请日 2019.04.18
(71)申请人 东华大学
地址 201600 上海市松江区人民北路2999
号
(72)发明人 周武能 何学辉
(74)专利代理机构 上海申汇专利代理有限公司
31001
代理人 翁若莹 柏子雵
(51)Int.Cl.
G06F 17/27
(2006.01)
G06K 9/62
(2006.01)
G06N 3/04
(2006.01)
G06N 3/08
(2006.01)
(54)发明名称
中文字词向量和方面词向量联合嵌入情感
分析方法
(57)摘要
本发明公开一种中文字词向量和方面词向
量联合嵌入CNN-LSTM情感分析模型。包括:字词
向量联合嵌入表示,词向量和方面词联合嵌入表
示,卷积神经网络整合句子特征和方面词特征,
句子特征和方面词特征联合输入LSTM神经网络,
利用LSTM的时序记忆功能对文本特征进行排序,
并且添加基于方面词的注意力机制,最后用全连
接层与soft-max函数判断情感类别。由于词语中
的汉字对词语的意思具有一定的表征作用,中文
字词向量结合嵌入可以使共享汉字的词语之间
产生了联系。方面词和评论中的词向量组合输入
神经网络训练,可以提高评论内容主题情感判断
的准确度。卷积神经网络将二者特征融合,进一
步提高情感分析模型的准确度。
权利要求书1页 说明书3页 附图2页
CN 110083833 A
2019.08.02
C
N
1
1
0
0
8
3
8
3
3
A
1.一种中文字词向量和方面词向量联合嵌入情感分析方法,其特征在于,包括如下步
骤:
步骤一、载入中文商品评论语料库,并将语料库按比例进行分割,分为训练集和测试
集;
步骤二、利用jieba分词工具对训练集和测试集分别进行分词处理;
步骤三、利用神经网络模型进行字词向量联合预训练,得到词语的初始化词向量和汉
字的初始化字向量表示,即得到字词向量联合嵌入表示;
步骤四、利用LDA模型对主题aspects进行建模,提取商品评论中的方面词,并且线性的
将方面词与词向量结合,得到词向量和方面词联合嵌入表示;
步骤五、将步骤三中得到的字词向量联合嵌入表示输入到卷积神经网络一提取出不同
维度的特征,然后经过池化操作得到字词向量联合嵌入表示的低维特征向量;
步骤六、将步骤四中得到的词向量和方面词联合嵌入表示输入到卷积神经网络二提取
出不同维度的特征,然后经过池化操作得到词向量和方面词联合嵌入表示的低维特征向
量;
步骤七、将步骤五得到的低维特征向量和步骤六得到的低维特征向量组合加权,即分
别将两个卷积神经网络得到的字词向量和方面词向量进行拼接建模,得到拼接建模向量;
步骤八、利用LSTM神经网络,将步骤七得到的字词向量和方面词向量的拼接建模向量
输入到LSTM中,利用LSTM的时序记忆功能对文本的特征进行排序,得到隐藏层当前的隐状
态H;
步骤九、LSTM输出的隐层表示与主题aspects向量拼接后作为输入,经过一层神经网络
得到的新的隐层表示,给当前的隐状态添加注意力机制,通过自动加权的方式决定输入文
本需要关注的部分,分别得到句子向量的概率分布;
步骤十、最终的句子向量经过softmax函数判断情感类别的概率,得到情感结果。
2.如权利要求1所述的一种中文字词向量和方面词向量联合嵌入情感分析方法,其特
征在于,步骤三中,在进行词向量训练的时候,将词语中把组成词语的汉字单独抽取出来和
词语一起进行训练,使那些共享汉字的词语之间产生了联系,词语中的汉字对词语的意思
具有一定的表征作用。
权 利 要 求 书
1/1页
2
CN 110083833 A