面向产品评论的意见挖掘研究综述_李俊

合集下载

微博产品评论挖掘模型研究

微博产品评论挖掘模型研究
b a s i s o f s e n t i me n t p o l a r i t y na a l y s i s o f p r o d u c t ev r i e ws ,t he mo d e l ma k e s he t ev r i e ws a s t wo c l a s s e s t o s t u d y b y d i f f e r e n t p o l a r i t y,a n d mi n e he t u s e r s c o n c e r n e d a d v n t a a g e s a n d d i s a d v nt a a g e s o f p r o d u c t f e a t u es r wi h t he t c o r r e s p o n d i n g v i e w b y s t a t i s i t c a l na a l y s i s me t h o d s . On he t
Abs t r a c t P r o d u c t r e v i e w o n t h e mi c r o b l o g g i n g p l a t f o r m i s a l l i mp o r t a n t c h a n n e l f o r us e r s t o e x p r e s s t h e i r p r o d u c t d e ma nd s nd a e mo i t o n a l t e n d e n c i e s . Ac c o r d i n g he t s o c i a l c h a r a c t e is r t i c s o f mi c r o b l o g g i n g。t he p a p e r b u i l d s a mi c r o b l o g g i n g p r o d u c t ev r i e w mi n i n g mo d e 1 .On he t

中文网络评论中提取产品特征的研究

中文网络评论中提取产品特征的研究

中文网络评论中提取产品特征的研究祖李军;王卫平【期刊名称】《计算机系统应用》【年(卷),期】2014(000)005【摘要】大量的网络评论已经成为挖掘用户意见、改进产品质量的重要信息来源,而特征抽取作为后续分析的基础,直接影响到最终意见挖掘结果的准确性。

本文提出了一种PMI-Bootstrapping算法,并结合了语言规则实现中文网络评论的产品特征抽取。

首先利用语言规则产生候选特征集,计算每个候选特征与初始给定种子集的加权平均互信息,将满足阈值的候选特征添加到种子集中,如此循环迭代,直到种子集合收敛,输出排队后的种子集合作为抽取结果。

实验证明,该算法取得良好的准确率和召回率。

%Now online reviews have become an important resource for mining users’opinion and refining products. As a foundation of further analysis, features extraction influences the precision of the opinion mining results. This paper proposes a PMI-Bootstrapping algorithm which realizes extracting product features from Chinese online reviews by combining three language rules. First, utilize the language rules to get a candidate feature set. Then, calculate the weighted average PMIfor each candidate feature with the seeds in the initial seed set. Add the candidate feature which satisfies the threshold to the seed set. Iterate until the seed set is convergent. Output the seed set as the extraction result. Experimental results show that the algorithm achieved very good precision and recall rate.【总页数】6页(P196-201)【作者】祖李军;王卫平【作者单位】中国科学技术大学管理学院,合肥 230026;中国科学技术大学管理学院,合肥 230026【正文语种】中文【相关文献】1.中文网络评论中的产品特征情感倾向提取算法研究 [J], 王永;陶娅芝;张勤2.中文网络评论的产品特征提取及情感倾向判定 [J], 任远远;王卫平3.中文网络评论的隐式产品特征提取方法研究 [J], 陈可嘉; 骆佳艺4.一种Windows10中文用户输入痕迹信息提取方法研究与实现 [J], 周凯5.中文文本分类中基于词性的特征提取方法研究 [J], 胡燕;吴虎子;钟珞因版权原因,仅展示原文概要,查看原文内容请购买。

基于在线评论的产品网络口碑挖掘

基于在线评论的产品网络口碑挖掘
基于在线评论的产品网络口 碑挖掘
2023-11-08
目录
• 引言 • 基于在线评论的产品网络口碑挖
掘的相关理论 • 基于在线评论的产品网络口碑挖
掘的方法 • 产品网络口碑挖掘的结果分析与
应用 • 总结与展望
01
引言
研究背景与意义
随着互联网的普及,在线评论成为消费者表达对产品或服务看法的常用渠道。这些评论对于企业改进产品和服务、消费者做 出购买决策都具有重要的参考价值。挖掘和分析在线评论中的产品网络口碑,有助于企业和消费者更好地了解产品或服务情 况。
在当前竞争激烈的市场环境中,产品网络口碑的好坏直接影响到企业的生存和发展。因此,基于在线评论的产品网络口碑挖 掘研究具有重要的理论和实践意义。
研究内容与方法
研究内容
本研究旨在挖掘和分析在线评论中的产品网络口碑,主要研究内容包括:1)数据采集与预处理;2) 情感分析;3)主题分析和观点挖掘;4)可视化展示。
研究展望与实际应用价值
基于在线评论的产品网络口碑挖 掘研究将在未来的市场营销和消 费者行为研究中发挥更加重要的
作用。
未来可以进一步拓展在线评论的 收集和分析范围,提高分析的精
度和可靠性。
通过深入挖掘在线评论数据,可 以为产品开发、市场营销和消费 者行为研究提供更加科学的依据
和指导。
感谢您的观看
THANKS
03
用户画像
通过对用户评论的挖掘和分析,构建 用户画像,包括年龄、性别、地域、 职业等特征,为企业制定市场策略提 供参考。
结果应用
产品改进
根据消费者对产品的反馈和评价,针对性地改进产品或服 务的质量、功能和用户体验,提高消费者满意度。
市场策略调整
通过分析网络口碑数据,了解消费者需求和市场趋势,及 时调整企业的市场策略,包括定价、促销和产品线等。

面向产品评论的意见挖掘研究综述

面向产品评论的意见挖掘研究综述

/ பைடு நூலகம்
文章 编 号 : 1 0 0 7 — 1 4 2 3 ( 2 0 1 3 ) 0 7 — 0 0 1 1 - 0 6
D OI : 1 0 . 3 9 6 9 / j . i s s n . 1 0 0 7 — 1 4 2 3 . 2 0 1 3 . 0 7 . 0 0 3
面 向产 品 评 论 的意 见 挖 掘研 究 综 述
针 对 产 品 评 论 的 意 见 挖 掘 一 直 是 意 见 挖 掘 领 域 的 热
近年来 . 随 着 以用 户 为 中 心 的 We b 2 . 0技 术 的快 速
发展 和应用 的不断扩 展 , 人 们可 以通过微 博 、 博客 、 论 坛 、电子商务 网站等多种途径发 表 自己 的对 于某件产 品或服务 的意见 或观点 .这些评论 信息 中包含 了用户
点。 文献『 2 1 认为, 意 见 是 意 见 持 有 者 针 对 某 个 实 体 或 实 体某个方 面的正面或者 负面的观点 、 态度 、 情 感 或 者 评 价. 其 中意 见 的表 达 对 象 可 以是 任 何 事 物 , 例如 产 品 、 服务 、 事件 、 主题等 , 意 见 的 持 有 者 可 以是 个 人 或 组 织 。 在 本 章 中 .我 们 将 利 用 来 自 A m a z o n . c n的一 段 关 于 笔 记 本 电脑 的评 论 来 进 一 步 阐述 意 见 挖 掘 这 个 问题 “ ( 1 ) 十一 月 底 打 特价 买 的 这 个 本 。 ( 2 ) 开 箱 封 条 是 完 整的 , 货运保护措施 也很到位 。( 3 ) 可 是 本 本 后 面 几 颗 螺 丝 有 非 常 明 显 的划 痕 . 还 有 屏 幕 上 有 几 条 划 痕 。

基于深度学习的内容推荐算法研究综述

基于深度学习的内容推荐算法研究综述

协同过滤推荐可以分为基于近邻和基于模型的推荐
方 法 ,是 利 用 用 户 物 品 交 互 数 据(比 如 评 分 数 据)实
现 推 荐(预 测)的 推 荐 方 法 ;混 合 推 荐 是 通 过 组 合 不
同的模型弥补模型之间的缺点来提高整个系统推荐
性 能 的 一 种 方 法[16]。 本 节 主 要 从 推 荐 的 算 法 思 路 、
0 概述
信息网络的迅速发展使得数据规模呈现爆发式
增 长 ,各 种 应 用 软 件(如 电 子 商 务 平 台 等)对 数 据 的 依 赖 性 越 来 越 强[1]。 但 是 ,数 据 的 增 量 超 过 了 平 台 或 系 统 的 承 受 范 围 ,这 种 现 象 被 称 为“ 信 息 过 载 ”问
近 年 来 ,应 用 软 件 的 数 量 呈 现 爆 发 式 增 长 ,滋 生 了越来越多的多源异构数据。这些数据来源多样、 结 构 复 杂 ,传 统 机 器 学 习 方 法 无 法 有 效 地 提 取 其 中 的 表 征 。 面 临 数 据 带 来 的 一 系 列 问 题 ,深 度 学 习 对 多源异构数据表征的充分学习获得了广泛的关注, 迅速成为研究热点之一。深度学习作为前沿技术, 泛指端到端的非线性可微模型。其优势主要体现在 非 线 性 转 换 、深 层 特 征 学 习 、高 弹 性 及 可 用 性 等 3 个 方 面 。 在 学 术 研 究 层 面 ,深 度 学 习 的 快 速 发 展 激 发 了 学 者 对 推 荐 领 域 学 术 研 究 的 兴 趣 ,逐 渐 出 现 了 Wide&Deep[9]、CDL[10]、AutoRec[11]等 经 典 的 深 度 推 荐 模 型 。 在 工 业 应 用 层 面 ,基 于 深 度 学 习 应 用 的 推 荐 算 法 不 断 改 进 与 创 新[12-14],为 各 领 域 的 产 品 提 供 商业化服务。

意见挖掘中产品特征的层次提取方法

意见挖掘中产品特征的层次提取方法

意见挖掘中产品特征的层次提取方法
张鹏;朱征宇;李存青;曾丽芳;陈烨;徐凯;常红要
【期刊名称】《微处理机》
【年(卷),期】2010(31)5
【摘要】意见挖掘中,产品特征层次的学习是其中重要的环节之一.为了更准确的学习产品特征层次,提出了一种从非规则与规则意见文本语料中对产品特征层次进行学习的算法.该算法能同时对包含专业描述的规则语料以及人为指定主题的非规则语料进行学习.利用文本特征词识别技术去除与主题相关度较差的词汇,并使用相对熵和语法结构分析方法从语料中产生出层次关系.实验结果表明,该算法能够较好地学习特征层次.
【总页数】5页(P81-85)
【作者】张鹏;朱征宇;李存青;曾丽芳;陈烨;徐凯;常红要
【作者单位】重庆大学计算机学院,重庆,400044;重庆大学计算机学院,重
庆,400044;重庆大学计算机学院,重庆,400044;重庆大学计算机学院,重庆,400044;重庆大学计算机学院,重庆,400044;重庆大学计算机学院,重庆,400044;重庆大学计算机学院,重庆,400044
【正文语种】中文
【中图分类】TP393
【相关文献】
1.产品用户评论在企业竞争情报中的应用——基于产品特征的关联规则数据挖掘[J], 吉顺权;周毅
2.高维数据挖掘中基于稀疏回归的嵌入式特征提取方法 [J], 林书亮
3.车载激光扫描数据中多类目标的层次化提取方法 [J], 董震;杨必胜
4.研究光谱数据挖掘中的特征提取方法 [J], 陈蓉;王帅
5.光谱数据挖掘中的特征提取方法 [J], 李乡儒
因版权原因,仅展示原文概要,查看原文内容请购买。

微博中产品意见挖掘研究

微博中产品意见挖掘研究

微博中产品意见挖掘研究
李光敏;许新山;张磊
【期刊名称】《情报杂志》
【年(卷),期】2014(000)004
【摘要】随着微博平台的兴起,越来越多的用户参与其中分享产品的使用体验并发表意见,如何从微博的评论文本中挖掘出用户的观点这一研究课题在企业竞争情报领域中具有重要的实用价值。

笔者首先阐述产品意见挖掘的意义,然后站在技术实现的角度从产品特征抽取、产品评论主客观分类、情感倾向性分析等方面介绍了国内外的研究进展,最后指出产品意见挖掘面临的不足和今后的研究方向。

【总页数】4页(P135-138)
【作者】李光敏;许新山;张磊
【作者单位】湖北师范学院计算机科学技术学院黄石 435000;湖北师范学院计算机科学技术学院黄石 435000;河南大学数据与知识工程研究所开封 475004【正文语种】中文
【中图分类】TP391
【相关文献】
1.意见领袖在微博口碑再传播中的影响力研究——基于新浪微博的社会网络分析[J], 常秋玲
2.意见领袖在微博口碑再传播中的影响力研究——基于新浪微博的社会网络分析[J], 常秋玲;
3.公共事件中微博意见领袖的话语策略与文本框架——基于新浪微博的实证研究
[J], 芦何秋;杨泽亚
4.微博话题符号网络下的意见领袖挖掘算法研究 [J], 曹林林;郑明春
5.天津“8·12”爆炸事故中的微博意见领袖及其舆论表达——以新浪微博为研究样本 [J], 荣荣;舒仁
因版权原因,仅展示原文概要,查看原文内容请购买。

网络评论管理

网络评论管理

工程管理科技前沿Vol.42,No.5FrontiersofScienceandTechnologyofEngineeringManagement2023年第5期网络评论管理:挑战与潜在研究方向赵翠1, 梁盠2,3, 肖勇波2,3(1.北京交通大学经济管理学院,北京100044;2.清华大学现代管理研究中心,北京100084;3.清华大学经济管理学院,北京100084)摘 要:通过打破时间和空间方面的限制,互联网经济极大地降低了人们获取信息的成本,便利了人们的生活。

然而以电子商务为代表的网络平台中普遍存在着信息不对称的缺点;网络评论在一定程度上解决了商家和消费者之间的信息不对称问题。

海量的网络评论中蕴藏着关于产品质量、商家服务、产品是否符合顾客个性化需求、产品/服务缺陷等方面的有用信息。

随着网络评论对顾客的购买选择行为影响力的增加,商家也日渐意识到评论信息的商业价值,注重网络评论的管理,并基于网络评论来优化定价、库存、营销等决策。

网络评论为信息系统与信息管理、市场营销、组织行为、运营与供应链管理等领域的学者带来了广泛的研究课题,包括评论的深度挖掘与知识发现、基于评论的需求预测、评论自身的管理以及基于评论的运营管理等。

本文在梳理网络评论的作用与管理挑战的基础上,综述学者已经开展的相关研究工作,并对下一步值得关注和进一步研究的评论管理相关研究方向进行了展望。

关键词:网络评论管理;评论信息挖掘;消费者行为;运营与供应链管理;定价与收益管理中图分类号:F713.36文献标识码:A文章编号:2097 0145(2023)05 0001 09doi:10.11847/fj.42.5.1NetworkCommentManagement:ChallengesandPotentialResearchDirectionsZHAOCui1,LIANGYong2,3,XIAOYongbo2,3(1.SchoolofEconomicsandManagement,BeijingJiaotongUniversity,Beijing100044,China;2.ResearchCenterforContemporaryManagement,TsinghuaUniversity,Beijing100084,China;3.SchoolofEconomicsandManagement,TsinghuaUniversity,Beijing100084,China)Abstract:Bybreakingtherestrictionsoftimeandspace,thenetworkeconomygreatlyreducestheinformationsearchingcostandfacilitatespeople’sdailylife.However,ascomparedtotraditionaleconomy,networkplatforms(e.g.,Taobao,Douyin,Didi,andAirbnb)havethedisadvantageofinformationasymmetrybetweensellers(orserviceproviders)andconsumers.Byallowingcustomerstoposttheirexperiencesaboutshoppingandproductusage,networkcommentspartiallyaddresstheproblemofinformationasymmetry.Massivenetworkcommentscontainusefulinformationaboutproductquality,servicelevel,product/servicefitness,andproductdefects.Asnetworkcommentsplayanincreasinglyimportantroleininfluencingcustomers’purchasingandchoicebehavior,firmsbecomeincreasinglyawareofthevalueofcommentinformation,andpaymoreattentiontothemanagementofnetworkcomments.Besides,theyevenmakepricing,inventory,andmarketingdecisionsbytakingintoaccounttheimpactofnetworkcomments.Fromtheperspec tiveofacademicresearch,thenetworkcommentspracticeprovidesampleresearchopportunitiesforscholarsfromvariousdisciplinesincludinginformationsystemsandinformationmanagement,marketing,organizationalbehavior,andopera tionsandsupplychainmanagement.Theresearchtopicsincludein depthminingandknowledgediscoveryofnetworkcomments,demandforecastingbasedoncomments,managementofnetworkcommentsthemselves,andoperationaldecisionmakingbasedonnetworkcomments.Thispaperprovidesasystematicanalysisofthebenefitsandchallengesofnetworkcomments,surveystheexistingliteraturerelevanttonetworkcomments,andproposessomepromisingdirectionsforfutureresearch.Keywords:networkcommentmanagement;knowledgediscoveryofnetworkcomments;consumerbehavior;operationsandsupplychainmanagement;pricingandrevenuemanagement收稿日期:2022 08 16基金项目:国家自然科学基金资助项目(72125002,72293561)通讯作者简介:肖勇波,清华大学经济管理学院教授,博士生导师,研究方向:运营与供应链管理,收益与定价管理。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

面向产品评论的意见挖掘研究综述李俊(四川大学计算机学院,成都610065)关键词:产品评论;意见挖掘;情感分析;信息抽取收稿日期:2013-01-29修稿日期:2013-03-01作者简介:李俊(1987-),男,广西贺州人,硕士研究生,研究方向为数据挖掘与自然语言学近年来,随着电子商务的快速发展,面向产品评论的意见挖掘研究受到国内外学者的广泛关注,成为学术界的研究热点之一。

对产品评论进行意见挖掘,不仅能为用户购物提供决策支持,还可以帮助生产商对产品和服务进行改进,具有重要的研究意义。

对面向产品评论的意见挖掘的研究现状进行归纳和总结。

首先将该问题分为3个子任务:意见信息抽取、情感分析,意见归纳。

然后基于国内外的研究进展对它们进行详细的介绍和分析,并讨论该领域其他一些值得关注的问题。

摘要:文章编号:1007-1423(2013)07-0011-06DOI :10.3969/j.issn.1007-1423.2013.07.0030引言近年来,随着以用户为中心的Web2.0技术的快速发展和应用的不断扩展,人们可以通过微博、博客、论坛、电子商务网站等多种途径发表自己的对于某件产品或服务的意见或观点,这些评论信息中包含了用户对产品或服务的描述、评价和态度,具有重要的价值。

通过浏览这些评论,消费者在购买产品之前可以从购买过该产品的用户那里了解到该产品的性能和质量,还可以对同类产品进行对比,从而决定是否购买该产品。

同时,生产商通过消费者对目前产品的评价,可以了解到自己产品的优势和不足,把握用户的需求,从而不断地改进产品,改善服务。

由于网络上的产品评论数量呈爆炸式增长,通过人工的方式去阅读、分析和处理这些评论信息是一件非常耗时的任务。

因此,迫切的需要提供一种有效的方法,自动或半自动地从大量非结构化的产品评论中挖掘出有价值的信息。

在这一背景下,面向产品评论的意见挖掘的研究应运而生。

1问题定义意见挖掘,又称为情感分析,是指对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程[1],而针对产品评论的意见挖掘一直是意见挖掘领域的热点。

文献[2]认为,意见是意见持有者针对某个实体或实体某个方面的正面或者负面的观点、态度、情感或者评价,其中意见的表达对象可以是任何事物,例如产品、服务、事件、主题等,意见的持有者可以是个人或组织。

在本章中,我们将利用来自 的一段关于笔记本电脑的评论来进一步阐述意见挖掘这个问题。

“(1)十一月底打特价买的这个本。

(2)开箱封条是完整的,货运保护措施也很到位。

(3)可是本本后面几颗螺丝有非常明显的划痕,还有屏幕上有几条划痕。

(4)就这台电脑本身来说,这样的配置目前3199的价格应该是挺难得了。

”其中,句子(1)是客观性文本。

句子(2)、(4)表达了正面的意见,而句子(3)表达了负面的意见。

更深入一些,我们注意到所有的评价意见都有一个关联评价对象。

句子(2)的评价对象是“封条”和“货运保护措施”,且隐含表达了对“产品包装”的正面评价,句子(3)的评价对象是“螺丝”和“屏幕”。

句子(4)的评价对象是“配置”。

这些观点和意见的持有者是该产品的购买者。

针对以上信息,我们可以更正式地提出意见挖掘的任务:●任务1:意见信息抽取。

指提取评论文本中的评价对象、评价词、评价者等意见组成要素,旨在将自然文本转化成结构化文本。

●任务2:情感分类。

判断文本的主客观性,或者判断文本的情感极性(褒义、贬义、中性)。

●任务3:意见摘要。

在意见信息抽取和情感分类结果的基础上,进一步加工处理,生成一个对实体的评价归总。

国内外学者对该课题进行了广泛而深入的研究[3~4]。

本文在接下来的部分将详细阐述意见挖掘的3个主要研究任务,主要介绍关于产品评论的意见挖掘研究的主流方法和前沿进展。

2意见信息抽取(Opinion Extraction)意见信息抽取是意见挖掘中最基础的任务,旨在按照预定的意见要素,从文本中抽取组成意见单元的信息。

接下来我们将主要介绍意见要素中评价对象和评价词抽取研究。

2.1评价对象的抽取评价对象(Opinion Targets)指评论中讨论的主题,在产品评论中,评价对象是指用户评论的产品或者产品的某一属性/特征。

针对产品特征的抽取,在较早的研究中,Kobayashi 等[5]针对游戏和汽车产品,使用人工定义的特征种子集,评价词种子集,利用特征和评价词的共现模式来获取产品特征。

人工定义的方法虽然能精确地抽取出评论中的产品特征,但召回率较低,且需要领域知识和大量人工工作,不利于领域切换。

而大部分工作利用词性标注或句法分析等技术对评论进行预处理,然后基于词性规则、句法规则来抽取出名词或名词短语集,最后对其做剪枝处理后得到产品特征。

例如,Hu等[6]首先对评论语料进行词性标注,利用句法分析技术提取出名词和名词短语作为候选特征,然后使用关联规则挖掘算法提取出频繁特征集作为产品特征。

Popescu等[7]应用Konwitall[8]系统,利用候选特征的与领域指示词的点互信息值(PMI)来筛选产品特征。

Zhao等[9]利用产品特征表达句法结构的相似性,以启发式的方法来获取产品特征。

此类方法的缺点在于依赖名词短语识别技术的准确性,不利于跨领域或跨语言的应用。

由于评价对象可认为蕴含于评论语料中某个特定的主题,近年来,许多学者将主题模型[10]应用到意见挖掘领域。

文献[11]使用多粒度的LDA模型获取产品特征,并将相似的产品特征进行聚类到同一主题。

研究者[12]将评论中每一个句子属于一个主题和一种情感,基于LDA模型提出SLDA模型来获取产品特征。

实验证明,此类方法在产品特征抽取中能够取得一定的效果,但是此方法需要预先定义主题的个数,且目前还没有实验将这类方法与传统的基于名词和名词短语的方法进行对比。

2.2评价词抽取评价词(Opinion/Opinion-Bearing Words),也常被称为情感词(Sentiment Words),指评价者对评价对象表达自己的观点时所使用的词汇。

许多情感分类的工作都基于评价词的识别,评价词抽取在意见挖掘研究中具有重要意义。

在产品评论的挖掘研究中,常利用评价词和评价对象的关系来抽取评价词。

Hu等[6]认为评价词应该于产品特征邻近,因此将与产品特征邻近的形容词作为评价词进行抽取,并利用抽取出的评价词来获取低频产品特征。

Popescu等[7]通过分析产品特征和评价词的同现规律,人工定义了利用产品特征抽取评价词的语法规则。

Qiu等[13]利用依存分析技术发现评价词和评价对象的关系模式,然后提出一种双向传播算法来获取评价词和评价对象。

在文献[11]中,作者基于LDA的原理,提出了主题-情感(Aspect-Sentiment)联合模型,用以获取评价词和产品特征对。

3情感分类(Sentiment Classification)情感分类主要包括两类任务:(1)主客观分类,即判断句子是主观的还是客观的。

(2)情感倾向性分类,即判断给定的主观性文本或文本片段(句子、短语,词语等)的情感极性(例如褒义、贬义、中性或其他更细粒度的极性划分)。

3.1主客观分类Pang和Lee的研究[14]表明,使用有监督的分类器对文本进行情感分类时,过滤掉文本中的非主观信息能够有效地提高分类效果。

主观性识别研究主要集中在句子级别。

有研究者[15~16]利用文本中是否具有情感词来判断句子是否具有主观性,Pang和Lee[14]采用基于图的最小切割的方法来识别句子的主客观性,而Wiebe等人[17]提出使用朴素贝叶斯分类器来进行句子的主客观分类。

在近期的工作中,Wang和Fu[18]通过计算情感密度子区间作为特征,训练朴素贝叶斯分类器来对中文文本进行主客观分类,而Jiang等人[19]则提出使用目标独立(Target-In-dependent Features)和目标依赖的特征来训练一个支持向量机(SVM)分类器进行句子的主客观分类。

Wang和Liu[20]提出一种无监督的学习方法,首先利用已有的主观性词典知识将未标注的数据构造成一个初始训练集,然后使用EM算法迭代地训练一个朴素贝叶斯分类器,逐渐地优化分类器参数,以达到最佳的分类效果。

3.2倾向性分类在文本倾向性分类研究中,早期的工作主要基于极性词典,用待分类文本中含有的极性词的褒贬性来计算文本的情感倾向性,代表性的工作有文献[15]。

这类方法因为极性词典的不全面,无法取得较好的效果,且受限于词典的领域性,不利于领域切换。

在基于传统文本分类技术的研究中,首先将文本表示成向量空间模型,然后使用机器学习的方法对判断文本的情感倾向性。

Pang和Lee[21]首先将机器学习的方法应用在倾向性分类中,他们使用N-gram作为特征,对比了NB、最大熵(ME)、SVM三种分类器,发现使用Unigram作为特征能够在取得更好的效果。

不过,Cui 等人[22]的研究表明,Unigram在训练语料较小时确实能取得不错的效果,但是随着训练语料的增加,N-gram (n>3)的作用更大。

有监督的学习方法需要大量训练数据,人工标注工作量巨大。

针对这个问题,一些研究者[23~24]利用文本中包含的常见情感信息词或短语作为文本的情感指示器,自动地对部分语料进行标注,获得一个初始训练集,然后迭代地进行以下两步直到分类器的性能稳定:(1)训练分类器。

(2)用分类器对文本分类,并将符合预定义条件的文本加入到训练集中。

由于不同的领域具有不同的情感词汇分布,如果将在一个领域训练好的分类器应用到其他领域,效果将会很差。

针对领域迁移的问题,Bollegala等人[25]借助不同领域中表达相似情感的词语间的联系,自动地从多个领域的语料中构建了一个情感敏感的词典用于跨领域的情感分类。

Gao等人[26]基于PLSA模型,提出了一种跨领域主题索引(Cross-Domain Topic Indexing)的方法,该方法利用领域间词语的共现和对应关系的先验知识找出不同领域中文档的共同语义空间。

4意见摘要(Opinion Summarization)用户在浏览某一个产品的评论的时候,通常参考其他用户的评论,然而浏览所有的评论又太过于耗时耗力,可见提供某种形式的意见摘要具有一定应用价值。

在产品评论挖掘研究中,意见摘要的主要处理对象为某个或某类产品的用户评论,它主要侧重于提取具有情感倾向性的主观信息,并对这些信息进行归纳。

意见摘要一种常见的形式是基于产品特征的意见摘要[7,27~28]。

文献[27]以对某种数码相机的评论进行归纳举例,提出了如图1所示的意见摘要形式,图中从拍照质量和大小等方面汇总了正面和负面的评价。

图1基于特征的意见摘要基于产品特征的意见摘要主要包括3个步骤:(1)抽取用户评论中的产品特征和描述该产品特征的主观句。

相关文档
最新文档