面向网络舆情的评论文本情感分析研究_李光敏
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 1 基于情感知识 Turney[20,21]通过语义倾向性 ( Semantic Orientation ) SO ( w ) = PM I ( w ,“excellent”) -PM I( w,“poor”) 计算所抽取短语的情感极性, 其中用逐点互 信 息 量 ( Pointw ise M utual Information) PM I 来计算所抽取短语与 excellent 和 poor 之间的语 义相关性。最后计算文本评论中所有情感短语的平均 SO 值是否大于零来决定文本评论分类( as Recommended not Recommended) ,对来自四个不同领域的金融 投资机构评论的实验结果证明能达到平均 74% 的准 确率,最高达 84% 。宋双永[22]等人基于两种情感词典 结合使用,实现了面向微博的热点事件中情感极性判 断和趋势分析的系统原型。
b. 基于序列标注 ( Sequential Labeling ) 的 监 督 学 习算法,该 算 法 主 要 包 括 隐 马 尔 可 夫 模 型 ( Hidden M arkov M odel,HM M ) 和条件随机场( Conditional Random Field,CRF) 。林琛[7]通过引入字级特征、特征词 及线索词特征,无需引入任何外部领域知识的情况下, 利用条件随机场求解指定观察序列下的最大概率的状 态序列来完成网络舆情的主题识别。翟东海[8]等人将 待测文本作为 CRFs 的观察序列和状态序列来计算其 相关性概率值并反 复 迭 代 完 成 敏 感 话 题 的 识 别 ,实 验 结果表明宏平均 F 值达到 0. 8235。
从国内外研究现状来看,通过分类器和特征项选 取是完成文本主客 观 分 类 的 主 要 方 法 ,那 么 今 后 采 用 更深层、更具针对性的特征项更能提高分类效果。
3 情感极性分类研究
情感极性分类是指对主观性文本进行情感极性的 识别,并分别标注为正面( Positive) 、负面( Negative) 和 中性( Neutral) ,这对政府及时了解大众的真实想法和 潜在意见提供重要的数据支撑。该分类目前主要有两 种研究思路: 基于情感知识的情感分值计算[20,21]和基 于机器学习的特征选取。
析( Sentiment Analysis) 研究十分有必要。Kim[1]认为 情感分析任务主要是确定主题、观点持有者、陈述定界 和情感极性以及它们之间的关系。本文依据该定义将 情感分析任务从如下方面展开汇总论述: 网络舆情主 题识别、文本的主客观分类、情感极性分类和网络舆情 监控系统应用。
1 网络舆情主题识别
的研究进展。最后列举出情感分析在网络舆情监控方面的应用和今后需深入研究的问题。
关键词 网络舆情 情感分析 主题识别 极性分类
中图分类号 TP391. 1
文献标志码 A
文章编号 1002-1965( 2014) 05-0157-04
DOI 10. 3969 / j. issn. 1002-1965. 2014. 05. 028
2 文本主客观分类
文本的主客观分类也称陈述界定。该阶段主要分 为训练和分类两个 过 程,通 过 预 处 理 将 半 结 构 化 或 非 结构化的文本表示 成 计 算 机 能 够 识 别 的 模 型 ,完 成 将 表达意见情感的主观性文本从描述事实的客观性文本 中分离的工作。
Rilo f f[12,13]等人认为客 观 性 文 本 会 对 情 感 极 性 分 类工作带来噪声干 扰,因 此 需 要 先 进 行 文 本 的 主 客 观 性分类。Yu[14]等人将词语作为特征项,使用朴素贝叶 斯( Naive Bayes) 分类器实现篇章级文本的主客观分 类并使查准率和查全率达到了 80% ~ 90% 。Jiang[15] 通过比较针对内容 特 征、情 感 词 典 特 征 及 面 向 主 题 特 征的三种 Tw eets 文本主客观分类实验发现采用面向 主题特征的分类效果最好。Li[16]考虑到 Tw eets 中个
第 33 卷 第 5 期 2014 年 5 月
情报杂志
JOURNAL OF INTELLIGENCE
Vol. 33 No百度文库 5 May 2014
面向网络舆情的评论文本情感分析研究!
李光敏1 张行文1 张 磊2 杨朋英1
( 1. 湖北师范学院 计算机科学技术学院 黄石 435000; 2. 河南大学 数据与知识工程研究所 开封 475004)
作者简介: 李光敏( 1979 -) ,硕士,讲师,研究方向: 文本挖掘、情感分析; 张行文( 1965 -) ,硕士,副教授,研究方向: 数据库、数据仓库; 张 磊
( 1981-) 男,博士研究生,讲师,研究方向: 知识表示、数据挖掘; 杨朋英( 1973-) 女,硕士,讲师,研究方向: 数据库应用技术。
通过情感知识进行文本极性分类主要存在问题: 出现在字典中的情 感 词 其 情 感 特 征 通 常 比 较 明 显 ,但 出现在特定社会事件中的网络新词一般也表达公众的 正负情感倾向,如“二胎政策今天放开,喜大普奔啊! ” 中的“喜大普奔”暗示积极的情感,这类网络新词的出 现增加了情感词典建立的难度。最近 M ikolov[23]基于 连续的词袋( bag of w ords) 和 skip - gram 模型实现的 word2vec 工具可以将文本语料库转换成词向量,再利 用 distance 工具计算词向量间的相似度,用来表示文 本语义上的相似度,这种思路很大程度上丰富情感词
Research on Text Sentiment Analysis for Online Opinion
Li Guangmin1 Zhang Xingw en1 Zhang Lei2 Yang Pengying1
( 1. College of Computer Science and Technology,Hubei Normal University,Huangshi 435000; 2. Institute of Data and Know ledge Engineering,Henan University,Kaifeng 475004)
0引言
随着互联网的飞 速 发 展 ,网 络 媒 体 被 公 认 为 继 报 纸、电视之后反映 社 会 舆 情 的 主 要 载 体 。 用 户 通 过 网 络媒体( 论坛、博客、微博) 发表自己关心或利益相关 的公共事件所持有的情绪、意见、态度等言论。正是这 些包含有喜、怒、哀、乐 等 个 人 丰 富 情 感 的 网 络 评 论 文 本的涌现,可以方便 政 府 等 职 能 部 门 利 用 计 算 机 技 术 及时了解民众对突发事件、社会现象的态度,进行网络 舆情监测、分析、预警和应对,从而及早发现危机苗头, 促进社会和谐健 康 发 展。 由 于 网 络 舆 情 形 成 迅 速 、传 播快、范围广,因此利 用 自 然 语 言 处 理 、人 工 智 能 等 技 术及时地对网络舆 情 进 行 监 控、预 警 和 引 导 的 情 感 分
主题识别主要识别评价词语所修饰的对象和领域 相关的本体概念,如新闻事件中的某个话题( “单独二 胎”) 。主题识别任务主要使用如下方法:
a. 基于统计方式的词共现图的主题识别,从某种 程度上来说词间的共现频率反映了它们之间的语义关
收稿日期: 2014-02-13
修回日期: 2014-03-24
基金项目: 湖北省教育厅青年科学技术研究项目“非结构化文本评论的情感分析模型构建研究”( 编号: Q20132503) 的研究成果之一。
·158·
情报杂志
第 33 卷
联。Trivison[2]最早利用词共现来计算文档间相似度。 赵文清[3]等人考虑 到 微 博 中 新 闻 话 题 时 域 性 强 、影 响 力大的特点综合相对词频和词频增加率两个因素抽取 主题词,根据共现率构建词共现图,完成新闻 话题识 别。同时 Popescu [4]提出的点互信息( Point-w ise M utual Information,PM I) 观点也与此思路一致。Liu[5]通 过句法分析抽取主题,然后结合 PM I 算法和名词剪枝 算法对抽取的 主 题 进 行 筛 选。 C ai[6] 采 用 逐 点 互 信 息 和词频分布方法完成主题发现。
Abstract With the rapid development of Internet technology,Internet has exceeded traditional media and become the main carrier of social public opinion. It is important for government how to extract effectively and summarize user opinions expressed in w eb text. Firstly, this paper presents the necessity of sentiment analysis on the grow ing w eb text . Then it introduces the research progress both at home and abroad of text sentiment analysis from the prospect of topic identification and subjectivity classification,etc. Finally,it summarizes the public opinion monitoring application status and existing problems of it. Key words online opinion sentiment analysis topic identification polarity classification
体独有的情感表达 方 式 和 整 体 共 用 的 特 征 知 识 ,通 过 协作式在线学习算法完成主客观分类 ( Emotional 和 Non-emotional. ) 。
国内针对中文文本的主客观分类研究起步较晚。 叶强[17]提出根据连续双词词类组合模式( 2 -POS ) 自 动判断句子主观性程度的方法,并在阈值设定为 0. 12 时,分类查准率和查全率均达到了 76% ,接近英文同 类研究。张博[18]将句法结构、依 存 关 系 抽 取 和 SVM 分类方法三者结合,采用模板匹配的方式完成中文观 点句抽取工作,并取得不错效果。杨武[19]等人针对微 博文本特点将特征词和主客观线索做语义特征,2 - POS 模式做语法特征,采用贝叶斯算法完成中文微博 的主客观句分类,其中 F 值达到 81. 2% 的实验效果。
c. 采用无监督学习算法。其中的主题模型( Topic M odel) 是将高维度的“文档-词语”向量空间映射到低 维度的“文档 -主题”和“主题 -词语”空间,有效提高 了文本信息处理的性能。主题模型主要有两类: Hofmann[9]通过引入概率统计的思想来求解文档、潜在语 义空间和词之间的 概 率 分 布,从 而 提 出 的 概 率 潜 在 语 义分析 ( Probabilistic Latent Semantic Analysis) 模 型 和 Blei[10]提 出 的 潜 在 狄 利 克 雷 分 配 ( Latent Dirichlet Allocation) ,它把模型的参数也看作随机变量,从而可 以引 入 控 制 参 数 的 参 数,实 现 彻 底 的“概 率 化 ”。 Lin[11]提出的基于潜在狄利克雷分配( LDA ) 的联合情 感主题模型能够同时实现主题抽取和情感极性识别。
摘 要 随着 Internet 的迅速发展,互联网超越传统媒体成为反映社会舆情的主要载体。如何有效地从其中获取社
情民意以引导社会健康发展是政府等职能部门所关注的重要问题。首先提出对日益增多的网络评论文本进行情感
分析研究的必要性。然后从主题识别、主客观性分类、情感极性分类等方面介绍针对网络舆情的情感分析在国内外
b. 基于序列标注 ( Sequential Labeling ) 的 监 督 学 习算法,该 算 法 主 要 包 括 隐 马 尔 可 夫 模 型 ( Hidden M arkov M odel,HM M ) 和条件随机场( Conditional Random Field,CRF) 。林琛[7]通过引入字级特征、特征词 及线索词特征,无需引入任何外部领域知识的情况下, 利用条件随机场求解指定观察序列下的最大概率的状 态序列来完成网络舆情的主题识别。翟东海[8]等人将 待测文本作为 CRFs 的观察序列和状态序列来计算其 相关性概率值并反 复 迭 代 完 成 敏 感 话 题 的 识 别 ,实 验 结果表明宏平均 F 值达到 0. 8235。
从国内外研究现状来看,通过分类器和特征项选 取是完成文本主客 观 分 类 的 主 要 方 法 ,那 么 今 后 采 用 更深层、更具针对性的特征项更能提高分类效果。
3 情感极性分类研究
情感极性分类是指对主观性文本进行情感极性的 识别,并分别标注为正面( Positive) 、负面( Negative) 和 中性( Neutral) ,这对政府及时了解大众的真实想法和 潜在意见提供重要的数据支撑。该分类目前主要有两 种研究思路: 基于情感知识的情感分值计算[20,21]和基 于机器学习的特征选取。
析( Sentiment Analysis) 研究十分有必要。Kim[1]认为 情感分析任务主要是确定主题、观点持有者、陈述定界 和情感极性以及它们之间的关系。本文依据该定义将 情感分析任务从如下方面展开汇总论述: 网络舆情主 题识别、文本的主客观分类、情感极性分类和网络舆情 监控系统应用。
1 网络舆情主题识别
的研究进展。最后列举出情感分析在网络舆情监控方面的应用和今后需深入研究的问题。
关键词 网络舆情 情感分析 主题识别 极性分类
中图分类号 TP391. 1
文献标志码 A
文章编号 1002-1965( 2014) 05-0157-04
DOI 10. 3969 / j. issn. 1002-1965. 2014. 05. 028
2 文本主客观分类
文本的主客观分类也称陈述界定。该阶段主要分 为训练和分类两个 过 程,通 过 预 处 理 将 半 结 构 化 或 非 结构化的文本表示 成 计 算 机 能 够 识 别 的 模 型 ,完 成 将 表达意见情感的主观性文本从描述事实的客观性文本 中分离的工作。
Rilo f f[12,13]等人认为客 观 性 文 本 会 对 情 感 极 性 分 类工作带来噪声干 扰,因 此 需 要 先 进 行 文 本 的 主 客 观 性分类。Yu[14]等人将词语作为特征项,使用朴素贝叶 斯( Naive Bayes) 分类器实现篇章级文本的主客观分 类并使查准率和查全率达到了 80% ~ 90% 。Jiang[15] 通过比较针对内容 特 征、情 感 词 典 特 征 及 面 向 主 题 特 征的三种 Tw eets 文本主客观分类实验发现采用面向 主题特征的分类效果最好。Li[16]考虑到 Tw eets 中个
第 33 卷 第 5 期 2014 年 5 月
情报杂志
JOURNAL OF INTELLIGENCE
Vol. 33 No百度文库 5 May 2014
面向网络舆情的评论文本情感分析研究!
李光敏1 张行文1 张 磊2 杨朋英1
( 1. 湖北师范学院 计算机科学技术学院 黄石 435000; 2. 河南大学 数据与知识工程研究所 开封 475004)
作者简介: 李光敏( 1979 -) ,硕士,讲师,研究方向: 文本挖掘、情感分析; 张行文( 1965 -) ,硕士,副教授,研究方向: 数据库、数据仓库; 张 磊
( 1981-) 男,博士研究生,讲师,研究方向: 知识表示、数据挖掘; 杨朋英( 1973-) 女,硕士,讲师,研究方向: 数据库应用技术。
通过情感知识进行文本极性分类主要存在问题: 出现在字典中的情 感 词 其 情 感 特 征 通 常 比 较 明 显 ,但 出现在特定社会事件中的网络新词一般也表达公众的 正负情感倾向,如“二胎政策今天放开,喜大普奔啊! ” 中的“喜大普奔”暗示积极的情感,这类网络新词的出 现增加了情感词典建立的难度。最近 M ikolov[23]基于 连续的词袋( bag of w ords) 和 skip - gram 模型实现的 word2vec 工具可以将文本语料库转换成词向量,再利 用 distance 工具计算词向量间的相似度,用来表示文 本语义上的相似度,这种思路很大程度上丰富情感词
Research on Text Sentiment Analysis for Online Opinion
Li Guangmin1 Zhang Xingw en1 Zhang Lei2 Yang Pengying1
( 1. College of Computer Science and Technology,Hubei Normal University,Huangshi 435000; 2. Institute of Data and Know ledge Engineering,Henan University,Kaifeng 475004)
0引言
随着互联网的飞 速 发 展 ,网 络 媒 体 被 公 认 为 继 报 纸、电视之后反映 社 会 舆 情 的 主 要 载 体 。 用 户 通 过 网 络媒体( 论坛、博客、微博) 发表自己关心或利益相关 的公共事件所持有的情绪、意见、态度等言论。正是这 些包含有喜、怒、哀、乐 等 个 人 丰 富 情 感 的 网 络 评 论 文 本的涌现,可以方便 政 府 等 职 能 部 门 利 用 计 算 机 技 术 及时了解民众对突发事件、社会现象的态度,进行网络 舆情监测、分析、预警和应对,从而及早发现危机苗头, 促进社会和谐健 康 发 展。 由 于 网 络 舆 情 形 成 迅 速 、传 播快、范围广,因此利 用 自 然 语 言 处 理 、人 工 智 能 等 技 术及时地对网络舆 情 进 行 监 控、预 警 和 引 导 的 情 感 分
主题识别主要识别评价词语所修饰的对象和领域 相关的本体概念,如新闻事件中的某个话题( “单独二 胎”) 。主题识别任务主要使用如下方法:
a. 基于统计方式的词共现图的主题识别,从某种 程度上来说词间的共现频率反映了它们之间的语义关
收稿日期: 2014-02-13
修回日期: 2014-03-24
基金项目: 湖北省教育厅青年科学技术研究项目“非结构化文本评论的情感分析模型构建研究”( 编号: Q20132503) 的研究成果之一。
·158·
情报杂志
第 33 卷
联。Trivison[2]最早利用词共现来计算文档间相似度。 赵文清[3]等人考虑 到 微 博 中 新 闻 话 题 时 域 性 强 、影 响 力大的特点综合相对词频和词频增加率两个因素抽取 主题词,根据共现率构建词共现图,完成新闻 话题识 别。同时 Popescu [4]提出的点互信息( Point-w ise M utual Information,PM I) 观点也与此思路一致。Liu[5]通 过句法分析抽取主题,然后结合 PM I 算法和名词剪枝 算法对抽取的 主 题 进 行 筛 选。 C ai[6] 采 用 逐 点 互 信 息 和词频分布方法完成主题发现。
Abstract With the rapid development of Internet technology,Internet has exceeded traditional media and become the main carrier of social public opinion. It is important for government how to extract effectively and summarize user opinions expressed in w eb text. Firstly, this paper presents the necessity of sentiment analysis on the grow ing w eb text . Then it introduces the research progress both at home and abroad of text sentiment analysis from the prospect of topic identification and subjectivity classification,etc. Finally,it summarizes the public opinion monitoring application status and existing problems of it. Key words online opinion sentiment analysis topic identification polarity classification
体独有的情感表达 方 式 和 整 体 共 用 的 特 征 知 识 ,通 过 协作式在线学习算法完成主客观分类 ( Emotional 和 Non-emotional. ) 。
国内针对中文文本的主客观分类研究起步较晚。 叶强[17]提出根据连续双词词类组合模式( 2 -POS ) 自 动判断句子主观性程度的方法,并在阈值设定为 0. 12 时,分类查准率和查全率均达到了 76% ,接近英文同 类研究。张博[18]将句法结构、依 存 关 系 抽 取 和 SVM 分类方法三者结合,采用模板匹配的方式完成中文观 点句抽取工作,并取得不错效果。杨武[19]等人针对微 博文本特点将特征词和主客观线索做语义特征,2 - POS 模式做语法特征,采用贝叶斯算法完成中文微博 的主客观句分类,其中 F 值达到 81. 2% 的实验效果。
c. 采用无监督学习算法。其中的主题模型( Topic M odel) 是将高维度的“文档-词语”向量空间映射到低 维度的“文档 -主题”和“主题 -词语”空间,有效提高 了文本信息处理的性能。主题模型主要有两类: Hofmann[9]通过引入概率统计的思想来求解文档、潜在语 义空间和词之间的 概 率 分 布,从 而 提 出 的 概 率 潜 在 语 义分析 ( Probabilistic Latent Semantic Analysis) 模 型 和 Blei[10]提 出 的 潜 在 狄 利 克 雷 分 配 ( Latent Dirichlet Allocation) ,它把模型的参数也看作随机变量,从而可 以引 入 控 制 参 数 的 参 数,实 现 彻 底 的“概 率 化 ”。 Lin[11]提出的基于潜在狄利克雷分配( LDA ) 的联合情 感主题模型能够同时实现主题抽取和情感极性识别。
摘 要 随着 Internet 的迅速发展,互联网超越传统媒体成为反映社会舆情的主要载体。如何有效地从其中获取社
情民意以引导社会健康发展是政府等职能部门所关注的重要问题。首先提出对日益增多的网络评论文本进行情感
分析研究的必要性。然后从主题识别、主客观性分类、情感极性分类等方面介绍针对网络舆情的情感分析在国内外