基于情感词典的文本情感倾向分析及可视化
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
研究s开发 文章编号:1007—1423(2017)09—0038—04 DOI:10.3969/j.issn.1007—1423.2017.09.010 基于情感词典的文本情感倾向分析及可视化 贾若雨 (四川大学计算机学院,成都610000) 摘要: 随着互联网的普及,越来越多的人通过网络平台发表对产品、服务等的看法。目前.电子商务网站主要通过评分高低 对用户评论进行分类.且仅有少部分大型网站提取用户评论文本中的概要信息且拥有较好的用户体验.不利于用户 快速获取核心信息。以酒店评论数据为例,对句子级的文本进行情感倾向分析,并对分析结果进行可视化展示。 关键词: 情感倾向:情感词典:可视化 0 引言 在互联网快速发展的今天.网络信息资源加速膨 胀.大数据已经成为当代的热门话题之一 如何从海量 数据中挖掘有用信息并通过用户易理解的方式进行呈 现.依旧是当前研究热点之一 随着搜索引擎技术的不 断发展.以及在线评论的暴增.文本情感分析逐渐流 行 通过用户对产品、服务或者事件的评论的情感分 类.我们可以了解到用户的情感倾向 对消费者而言, 他们可以从这些分类信息中了解大众对某个产品或者 服务的口碑.以便做出购买决策 对于企业管理者而 言.他们可以通过了解这些客户的一些反馈信息.发现 产品或者服务中的不足.从而加以改善 对于政府工作 人员而言,他们可以及时了解舆论倾向,实时监控.维 护社会的稳定 文本情感倾向分析是情感分析中最重要的一步. 它包含文本情感分类以及倾向性信息抽取 文本情感 倾向分析目前多应用于电子商务、舆情监控等方面.在 电子商务网站应用尤为广泛 目前.大部分电子商务网 站仅通过用户评分对评论进行分类.包括好评、中评和 差评 但单纯通过评分对评论内容进行分类.存在主观 臆断.每个用户都有自己的评价标准以及其他一些原 【大】.经常出现好评中存在差评.中评中存在差评的情 况.影响文本分类的准确性 同时,仅有少部分大型电 现代计算机2017.03下 商网站抽取了评论内容中的部分信息.以标签云的方 式展示.大部分网站仅对评论进行了分类.或使用基本 的统计图(如饼图、条形图)展示评论结果,用户需要手 动翻看一条条评论信息来获得真正有价值的内容.无 法通过视觉迅速感知并直观地获取评论中的核心内容 和潜在规律 目前.国内外研究者在意见挖掘方面研究较多.能 从大量的评论文本中抽取出特征信息,从而获得观点 持有者的意见[1I 可视化可以帮助用户直观快速地发现 文本中的重要内容和潜在规律I2-3] 按照处理文本的粒度不同.情感分析可分为词语 级、短语级、句子级 和篇章级等几个层次的研究。本文 通过对句子级评论文本进行情感分类.挖掘其中的重 要信息.并通过有效的可视化方法进行展示.设计并实 现了意见挖掘的交互式可视化原型系统.帮助用户迅 速从大量的文本数据中发现核心内容和潜在信息 1 算法实现 1.1情感词典的构建 情感词典的完备性直接影响到特征提取的效果. 进一步影响最终的实验结果 就目前来看.无论是在中 文领域还是英文领域.国内外都没有一部完整且通用 的情感词典.我们只能根据现在已有的词典资源.并加 以扩充.来构建我们所需要的情感词典。
研究与开发 『冬I 1情感训媳的构成 基{i}I}情感词典即具有跨领域性质.在多个领域都 能通用的情感词典 本文结合了知网所提供的… 感分 析川词语集(beta版)”、NTUSD、《学生褒贬义词典》,加 以槎理.经过去霞、手 删除小常见情感词等处理,得 到了一个卡H对完备的基础情感词典一 网络情感词典中包含的同不同丁传统词语.无法 从传统的讲法或者语义去判断它们的意思.其叶1很多 词都是通过某些词的谐音、字母缩写等改变而来 也有 一部分是 为热门话题演变而来 这些词巾有很大一 部分都带有情感色彩.被片J户川于符种评论之巾本文 手l:从利:交网络叶】整理了一部分的网络情感词束构成 网络情感词典.作为整个情感词典的补允,共整理了 l37个常川网络情感词 领域词典巾的词在本领域中带有明 的情感色 彩.但是它们存其他领域中可能并 表现fI{任何的情 感色彩或者表示相反的情感色彩 本文采JH扩展的点 互信息算法(SO—PMI)米对酒 评论中的领域情感词 进行提取 SO—PMI的思想是:选取两组綦准词PosWoMs和 NegWor( PosWords由带有明显情感倾向的褒义词构 成.相反的NegWords南贬义同构成..将候选同Wor(1分 别与P0sWt)rds和NegWords咀的基准词一一计算相似 度.最后得到: SO—l Mi W‘)rfi、 PM1 Word,pWord、一 pII・,rdE,’ ll『l 1 , ,(Word,,lWord) (1) i,fflJ ∈、f・ “.rd 其巾,PWord表示 Words集合巾的词., ord表 示NegWfJ九瓜集合ffl的同.. 设定一个 值0,使得当SO—PMI的值小于0时. 表示陔词属于贬义词:当S0一PMI等于0时,表示该词 是巾性同:当S0一PMI大干0时.表示陔词为褒义词,、 1.2情感倾向计算 本史所使 的数据属1:钔子级文本.而每个们于 郝是南多个予句构成.我仃J通过标点符 来埘文水进 行分割,分成多个子,1J l’f-!,c ・ ,…, 而每个子,_J 义可能仔在一个或 多个 价组合单元“・.,1 …, 何个子 的情感傲性为: E(t ,)= E(H,,) (2) /=1 而 个 子的情感极性则为: E(S)= ( ) (3) l=I 根据公式(3),【i『以得刮 种情况,、 E( )大丁0 时。表爪句子傲性为止,【!I】表达正 情感:当E(S)小r 0时.表示句子lf及性为负.即表达负而情感 当E(S)等 丁0时.表达的是中性情感 1.3可视化方法 本丈采jH甚于FDA的佑局模型.以I}1心 ̄1)t-点为根 节点向外延伸fH i个子节点.这 个子节点是 个文_小 类圳的[f1心节点 }}1这i个c 1 tL,1 点进行扩敝.连接 于各自类别的评论节点毖丁FDA的布 设汁步骤: ①没置一块矩形 布.其 积re【 l=width*height. 陔lL田j布由点集V和E构成 ②没置引力手¨斥力的汁算公式: f.((I)=d2/k//引力公式,k为参数,(1为点问距离 f((I)=k2hl//; ̄s力公式,斥力与趴离d成反比 ③汁算每个节点 为斥力所产生的位移x1.以 6乏 每个节点 引力所产牛的位移x2、 ④更新 点何 :iI。算得到斥力干¨fjl力产生的综 合位移disI1'通过温度t控制节点的iJ占J 幅瞍,许判断 节点的坐标是否超…了㈣ i.替巡 .9{0根据i,1i布进f 州整 ⑤I :到符个节点达到平衡点时,符个节点停I卜 置的更新 本文针对提取的关键词.采川i文 : 疗J=I=进行i,J 视化展乐 将文字 的 』Ⅱ) 域没置为一个 阋.每个 关键词[1,0显示大小 它的涮频以决定.将其大小映射 到一个适当的范罔,词频越大.字体越大.反之则越小 外设计了一个取色器Ct,lt rLsit.随机为关键词分配颜 包、关键洞的布 流程如 2所,J .. 2 程序运行界面效果 _lI 化结果如 3所爪 /
现代计算机 2017.
o3下④