中文网络客户评论的产品特征挖掘方法研究
中文在线评论中的商品特征聚类研究

第33卷第7期2016年7月计算机应用与软件Computer Applications and SoftwareVol.33 No.7Ju l.2016中文在线评论中的商品特征聚类研究秦成磊魏晓$(上海应用技术大学计算机科学与信息工程学院上海201418)摘要针对评论中蕴含的商品特征数目繁多且同一特征具有多种不同描述的情况,提出一种基于语义相似度的商品特征聚类 算法。
算法包括“分配”和“转移”两个过程。
“分配”过程对特征词进行聚类得到初始簇序列;“转移”过程依次遍历初始簇序列将 簇内可能存在的与其他簇语义相似度更高的特征词转移到对应的簇。
实验结果表明该算法聚类质量高、时间复杂度小且对数据输 入次序不敏感。
关键词 商品特征聚类特征聚类语义相似度评论挖掘中图分类号 TP3 文献标识码 A D01:10.3969/j.issn.1000-386x.2016.07.015RESEARCH ON COMMODITY FEATURES CLUSTERING INCHINESE ONLINE COMMENTSQin Chenglei Wei Xiao *(School of Computer Science and Information Engineering, Shanghai Institute of Technology, Shanghai 201418,China)Abstract I n light of the situation that in comments there are so many commodity feature numbers while multiple different descriptions are just for one f eature,we proposed a semantic similarity-based commodity features clustering algorithm.The algorithm includes two processes, the “allocation”and the “transfer”.The “allocation”process clusters the feature words t o get primary clusters sequence;and the “transfer”process traverses the primary clusters sequence in turn and transfers the feature words within a cluster which possibly have higher similarity in semantics as of other clusters t o the corresponding cluster.Experimental results indicate that the algorithm has complexity and i s insensitive t o data input order.Keywords Commodity features clustering Features clustering Semantic similarity Comment mining〇引言Godes David等[1]早在2204年针对服装、计算机、旅游等行 业的研究发现,有近半数以上的网购消费者在做出购买决定前 参考了该商品的评论信息。
挖掘中文网络客户评论的产品特征及情感倾向_李实

收稿日期: 2010-01-25; 修回日期: 2010-03-08 基金项目: 国家自然科学基金资助项目( 70971033) 作者简介: 李实( 1976-) ,女,黑龙江哈尔滨人,博士,主要研究方向为电子商务、商务智能( shishili@ gmail. com) ; 叶强( 1972-) ,男,教授,博士, 主要研究方向为商务智能、电子商务; 李一军( 1957-) ,教授,博士,主要研究方向为管理信息系统、决策支持系统等; 罗嗣卿( 1964-) ,男,副教授,硕 士,主要研究方向为管理信息系统等.
也有一些研究 人 员 采 用 了 其 他 方 法 实 现 这 一 功 能,比 如 Kobayashi 等人[4]采用了一个半自动化的循环方法提取产品特 征和用户观点,但是需要大量的人工参与; Popescu 等人[5]利用 研发的 KonwItAll 系统进行贝叶斯分类,从而提取产品特征,提 高 Hu 的准确率,但是查准率却有所下降。
由于网络评论的信息挖掘是噪声很大的领域,网络上的评 论大多由非专业人员写的,文献[9]指出对于评论作者这一传 播者的专业性对于网络评论这一口碑传播方式之一是具有很 大影响的。而且 不 论 是 数 量 还 是 风 格,网 络 上 的 评 论 变 化 很 快。由于网络客户评论的异步性[10],既有的知识库结构和内 容可能会带来一些延时性误差,需要人工参与的监督型方法对 于面向网络评论的挖掘都有所局限,特别是监督型方法对中文 评论进行挖掘,需要首先从语言学的角度对这种主观性的文本 进行研究,包括语料收集、分析语言规律、研究标注规范和方法 等。但在国内的研究中,这方面的基础研究还做得很少[6],所 以非监督型方法更为适合面向电子商务的中文评论产品特征 挖掘。
中文评论中产品特征挖掘的剪枝算法研究

长 ,信 息内容越来越庞杂 ,导致客户评论 中有用信息难 以获 取 。因此,迫切需要借助一定的技术手段使这一过程变得更
准确和便捷 。
评论挖 掘是一种以有效获取 网络用户评论信息为 目标 的 非结构化数 据分析技术 ,主要涉及情感分析、评论 中产 品特 征挖掘 以及 评论 中主观内容识别等 。在英文评论领域 ,研究
合, 设计邻 近规则剪枝算法和最小独立支持度剪枝 算法,并通过实验确定邻近规 则距离值和 最小独 立支持 度。实验结果表 明,这 2 种剪枝
算法 均能有效提高产 品特征挖掘 的查 准率和 查全率 。 关健 诃 :评论挖掘 ;关联规则 ;产 品特征 ;剪枝 ;非结构化信息 ;非监督学 习
Re e r h 0 u i gAl o ih f o u t a u eM i i g s a c n Pr n n g r t m 0 d c Pr Fe t r n n
中 分 号 9 . 田 类 t 36 C 1
中文评论 中产 品特征挖 掘 的 剪枝 算 法研 究
李 实。 ,李秋实
( 东北林业大 学 a 信息与计算机工程 学院;b 土木工程 学院,哈尔滨 104) . . 50 1 摘 要 :针对 中文 网络客户评论 中的产品特征 挖掘问题 ,提出一种基于 A r r算法 的非监 督挖 掘方法。利用 A r r算法挖掘候选特征集 poi i pii o
s o t a e p e ii n e a l fmi i t o ee e tv mp o e y t r p s d p n n l o t ms h w t r c son a d r c l o n ng me d a f c i ei r v d b wo p o o e r i g ag r h . h t h h r u i
基于中文在线评论的产品特征提取与情感分析研究

基于中文在线评论的产品特征提取与情感分析研究一、内容简述随着互联网的普及和发展,网络评论已经成为了衡量产品受欢迎程度和产品质量的重要指标。
然而由于网络评论中存在大量的虚假、重复和无关信息,因此对这些评论进行有效的特征提取和情感分析显得尤为重要。
本文旨在研究如何从中文在线评论中提取关键产品特征,以及如何对这些特征进行情感分析,从而为企业和消费者提供有价值的参考信息。
首先本文将对中文在线评论数据进行预处理,包括去除无关信息、停用词过滤和词干提取等。
接下来本文将尝试提取文本中的关键词、主题和观点等关键产品特征。
为了提高特征提取的准确性和可解释性,本文还将采用多种机器学习和自然语言处理技术,如文本分类、聚类、主题模型和情感词典等。
在完成特征提取后,本文将对这些特征进行情感分析,以了解用户对产品的喜好和不满。
为了实现这一目标,本文将采用情感词典构建方法,根据预先定义的情感极性对文本进行情感分类。
此外本文还将探讨如何利用深度学习方法(如循环神经网络和长短时记忆网络)进行更准确的情感分析。
1.1 研究背景和意义随着互联网的普及和发展,网络评论已经成为了人们获取信息、了解产品和企业的重要途径。
尤其是在电子商务领域,产品评论对于消费者购买决策具有重要的影响。
因此对产品评论进行有效的情感分析和特征提取,有助于企业更好地了解消费者的需求和喜好,从而提高产品质量和服务水平。
中文在线评论作为一种新兴的数据来源,具有丰富的信息量和较高的可信度。
通过对中文在线评论进行情感分析和特征提取,可以挖掘出潜在的市场机会和竞争优势,为企业的产品研发、市场营销和品牌建设提供有力支持。
同时这也有助于提高中文自然语言处理技术的研究水平,推动相关领域的发展。
然而目前针对中文在线评论的情感分析和特征提取研究还存在一定的局限性。
例如现有方法往往过于依赖于人工标注的数据集,难以覆盖大量的实际场景;此外,针对中文语境的特点,如歧义消解、词性标注等方面仍存在较多的技术挑战。
中文在线产品评论中“特征观点对”的挖掘方法

2019年12期(4月)摘要:文章主要针对中文在线产品评论进行研究,识别与抽取其中的基本评价单元———“特征、观点对”(Feature-Opin -ion Pair ,FOP ),提出基于语义词典的特征观点对提取方法。
先通过分词与词性标注产生实词序列,并保留其中特定的名词、动词、形容词与副词生成产品特征与观点词序列,再通过进一步的精炼与映射成为评论特征与观点词序列,最后运用匹配与抽取算法自动生成特征观点对。
实验结果表明,本方法的查全率约为87.62%,查准率约为79.44%,其性能与基线方法相比,有明显地提高。
关键词:在线产品评论;产品特征;特征观点对;语义一、引言随着口碑营销等新型营销模式的兴起,在线评论的挖掘受到越来越多的关注。
用户往往是根据产品的不同特征发表相应的观点,所以评论中的产品特征及其观点便成为反应用户对产品认知和评价的基本单元。
特征观点对的提取是挖掘评论商业价值的最重要一步。
现有的方法多为针对英文评论中特征观点对的提取。
英文评论句式固定、语法规范,而中文评论则存在口语化严重、语法不规范、语义模糊及主语缺失的特点,在一定程度上加大了评论挖掘的难度。
由于中文与英文在表达方式上的较大差别,英文评论挖掘的方法无法直接应用到中文评论中。
因此,本文主要针对中文产品评论中的特征观点对进行挖掘,在已有研究的基础上,提出基于语义词库的挖掘方法,并通过实验来验证该方法的有效性,最后再分类统计特征观点,实现评论信息的有效组织。
二、文献综述基于统计的方法利用基于统计的算法识别特征词,再采用邻近原则来判断相应的观点。
例如,Liu (2006)首先识别句子中的名词或名词短语,然后使用关联规则挖掘出频繁项作为产品特征,将离产品特征最近的形容词作为评论观点。
Scaffidi (2007)通过人工建立特定产品的特征集合来识别评论中的产品特征,再将与产品特征相邻的形容词作为评论观点。
Zhang 等(2010)通过条件随机场识别产品特征,再基于邻近原则与语法树识别与产品特征相对应的评价观点。
如何使用数据挖掘技术挖掘用户评论

如何使用数据挖掘技术挖掘用户评论使用数据挖掘技术挖掘用户评论随着互联网的普及和发展,用户评论已成为了人们获取产品和服务信息的重要途径。
然而,随着评论数量的不断增加,如何从海量的评论中提取有用的信息成为了一个挑战。
数据挖掘技术的发展为我们解决这个问题提供了新的思路和方法。
一、数据挖掘技术在用户评论中的应用数据挖掘技术在用户评论中的应用主要包括情感分析、主题提取和用户行为分析等方面。
1. 情感分析情感分析是通过对用户评论中的情感倾向进行分析,来了解用户对产品或服务的评价。
情感分析可以帮助企业了解用户对产品的满意度,发现产品的优点和不足之处,从而进行改进和优化。
通过情感分析,企业可以快速了解用户对产品的整体评价,为产品的改进提供方向。
2. 主题提取主题提取是通过对用户评论中的关键词和短语进行分析,来提取用户对产品或服务关注的主题。
主题提取可以帮助企业了解用户对产品的关注点,从而进行产品的定位和市场推广。
通过主题提取,企业可以了解用户对产品的需求和期望,为产品的研发和推广提供依据。
3. 用户行为分析用户行为分析是通过对用户评论中的行为数据进行分析,来了解用户的行为习惯和偏好。
用户行为分析可以帮助企业了解用户的购买决策过程,从而进行精准的市场推广。
通过用户行为分析,企业可以了解用户的购买偏好和购买动机,为产品的定价和促销策略提供参考。
二、数据挖掘技术在用户评论中的挑战尽管数据挖掘技术在用户评论中有广泛的应用,但也面临着一些挑战。
1. 数据量大随着互联网的普及,用户评论的数量呈指数级增长。
海量的评论数据给数据挖掘带来了巨大的挑战。
如何高效地处理和分析海量的评论数据成为了一个问题。
2. 数据质量差用户评论的质量参差不齐,有些评论存在虚假和恶意的情况。
如何过滤掉虚假和恶意评论,提取真实和有用的信息成为了一个难题。
3. 多样性和复杂性用户评论的多样性和复杂性给数据挖掘带来了困难。
用户评论涉及的领域和行业广泛,涉及的主题复杂多样。
从评论语料库中挖掘产品特征词论文(DOC 36页)

从评论语料库中挖掘产品特征词论文(DOC 36页)重庆科技学院毕业设计(论文)题目从评论语料库中挖掘产品特征词院(系)电子信息工程学院专业班级计科应2006-01 学生姓名程学伟学号2006540220 指导教师黄永文职称讲师评阅教师___ _ 职称___2010年 6 月 10 日注意事项1.设计(论文)的内容包括:1)封面(按教务处制定的标准封面格式制作)2)题名页3)中文摘要(300字左右)、关键词4)外文摘要、关键词5)目次页(附件不统一编入)6)论文主体部分:引言(或绪论)、正文、结论、参考文献7)附录(对论文支持必要时)2.论文字数要求:理工类设计(论文)正文字数不少于1万字(不包括图纸、程序清单等),文科类论文正文字数不少于1.2万字。
3.附件包括:任务书、文献综述、开题报告、外文译文、译文原文(复印件)。
4.文字、图表要求:1)文字通顺,语言流畅,书写字迹工整,打印字体及大小符合要求,无错别字,不准请他人代写2)工程设计类题目的图纸,要求部分用尺规绘3)4)5)重庆科技学院本科生毕业设计(论文)从评论语料库中挖掘产品特征词院(系)电子信息工程学院专业班级计科应2006-01学生姓名程学伟指导教师黄永文讲师2010年 6月 10日学生毕业设计(论文)原创性声明本人以信誉声明:所呈交的毕业设计(论文)是在导师的指导下进行的设计(研究)工作及取得的成果,设计(论文)中引用他(她)人的文献、数据、图件、资料均已明确标注出,论文中的结论和结果为本人独立完成,不包含他人成果及为获得重庆科技学院或其它教育机构的学位或证书而使用其材料。
与我一同工作的同志对本设计(研究)所做的任何贡献均已在论文中作了明确的说明并表示了谢意。
毕业设计(论文)作者(签字):年月日摘要随着web的广泛应用,用户购买和实用产品之后会在web上发表对产品的评论,这些评论中包含用户对产品性能或者功能等方面持有肯定还是否定的态度,生产厂商和用户对产品的评论的分析可以获得大量有用信息:生产厂商不仅可以了解用户对产品目前已经提供的性能的评价和产品的不足,还可以了解用户的需求,找出用户最感兴趣和最希望提供的功能,从而改进产品。
挖掘中文网络客户评论的产品特征及情感倾向

h l n fcu e n e vc rvd r i r v h i p o u t a d s r ie , n a nc mp t iea v n a e .T i p p r m・ ep ma ua t rs a d s r iep o i e s mp o et er r d cs n e vc s a dg i o ei v d a tg s h s a e t p p s d a p ra h b s d O p ir ag r h wh c n u e i d fau ee t ci n ag r h n u evs d s n i n n l- o e n a p o c a e n A r i l o t m ih u s p r s e t r xr t l o t m a d s p r ie e t o i v e a o i me t ay a sstc n l g or a i h u i h o o y t e l e t e s mmey i fr t n o u tme e iws n h n r n e h o k f au e n p no sb s d e z r no mai f so rrv e .A d t e a k d t e w r e t r sa d o i in a e o c
李 实 叶 , 强 李一军 罗嗣卿 , ,
(. 1 东北林业 大 学 信 息与计算 机工程 学 院, 尔滨 104 ; . 尔滨 工业 大学 经济与 管理 学院 , 尔滨 100 ) 哈 500 2哈 哈 50 1 摘 要 :为探 索 中文客 户评论 中的产 品特征及 相关情 感倾 向的挖 掘 , 以帮助 生产 商和服 务 商改 进产 品 、 改善 服
务 , 高竞 争力 , 出采 用基 于 A ff算法 的非监督 型产品特征挖 掘 算 法 , 提 提 po ii 结合监 督 型情 感分析 技 术 , 实现对 于
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
① 收稿日期 : 2007 - 11 - 23; 修订日期 : 2008—04—25. 基金项目 : 国家自然科学基金资助项目 (70771032, 70501009) ; 香港理工大学研究基金资助项目 ( G - YX93). 作者简介 : 李 实 (1976—) , 女 , 黑龙江哈尔滨人 , 博士生. Email: shishili@ gmail. com
但是 ,随着网络评论数量的飞速增长 ,庞杂的 信息使得人工方法难以获得全部客户评论中的有 用信息. 因此 ,迫切需要借助一定的技术手段来使 这一过程变得更为便捷. 近来 ,以有效获取网络用
户评论信息为目标的非结构化数据分析技术 ——— “评论挖掘 ”吸引了很多学者关注 [ 4 ]. 评论挖掘作 为非结构化信息挖掘的一个新兴领域 ,主要涉及 网络评论情感倾向的分析 ,评论中产品特征的提 取 ,以及评论中产品比较信息挖掘等等 [ 5 ~ 8 ]. 消 费者可以借助于评论挖掘工具了解产品的性能和 其他用户对该产品的态度 ;同时 ,网络客户评论作 为反馈机制 ,可以为销售商和生产商提供哪些产 品特征是客户所关注的以及客户对于产品的情感 倾向分布等信息 ,从而可以帮助企业改进产品 、改 善服务 ,获得竞争优势. 面向网络用户评论的产品 特征提取研究 ,作为评论挖掘的研究方向之一 ,旨 在从客户评论中挖掘出备受关注的产品特征信 息 ,并且总结基于这些产品特征的观点 ,依靠情感 分类 ( sentim ent classification) 技术自动得出用户 对各个属性的态度倾向 ,从而可以为用户提供更 为具体和有价值的信息 [ 9 ]. 在英文世界的评论挖
基于机器学习的情感分类方法在针对每一种 产品使用前 ,都需要用大量的训练样本对分类模 型进行训练 ,而训练样本集的建立则需要采用人 工方法对大量的评论文章逐一阅读甄别 ,并进行 手工标识 ,这与利用自动情感分类降低人的阅读 负担这一初衷还有着一定的差距. 因此 ,近来许多 研究者将情感分析研究的重点集中在对训练样本 的需求量较低的语义方法上. Turney[ 6 ]最早提出 了基于 PM I2IR算法的语义情感分类思想 ,该方法 将点互信息 ( PM I)与信息汲取方法 ( IR )相结合 , 借助搜索引擎的后台数据库获得语义倾向信息 , 从而做出情感判断 ,得到汽车评论的准确率是 84% ,电影评论的准确率是 66%. 其可靠性已经 在英文客户情感分类的研究中得到了初步的验 证. 2003 年 , D ave[ 20 ] 利 用 该 方 法 对 亚 马 逊 (Amazon)和 C2Net等网上商店的客户评论进行 了情感分析 ,再次验证了该方法的性能. Zhou[ 15 ]
第 12卷第 2期 2009年 4月
JOURNAL
管 理 科 学 学 报 OF MANAGEM ENT SC IENCES
IN
Vol. 12 No. 2
CH INA
Ap r. 2009
中文网络客户评论的产品特征挖掘方法研究①
李 实 1 , 叶 强 1, 2 , 李一军 1 , Rob Law2
(1) 文化差异导致语言表达方式不同. 正如 Rosenzweig[ 11 ]曾指出的 ,文化差异将导致管理研 究的不等价性 ;而网络评论这一文本的风格毋庸 置疑和商品评论的撰写者 ———客户的文化背景深 刻相关 [ 12 ] .
(2) 语言结构的差异. 例如 ,英语中的单词是 自然分开的 ,而中文评论的分析首先要进行分词 处理 ;
(1. 哈尔滨工业大学管理学院 , 哈尔滨 150001; 2. 香港理工大学 , 中国香港 100085)
摘要 : 随着互联网的广泛应用 ,在 B log、BBS、W iki等网络站点中出现了大量的针对商品或服 务的客户评论 ,这些客户评论中所包含的丰富信息 ,对企业管理具有重要的价值. 通过数据挖 掘算法对客户针对某一产品的大量评论进行分析 ,可以挖掘出这些产品的主要特征 ,并有望进 一步发现客户对这些特征的意见和态度. 在英文世界中已经有学者开始对这一研究进行探索 , 然而由于语言结构等方面的差异 ,英文的研究成果尚无法直接应用于中文客户评论的挖掘中. 本研究针对中文的特点 ,提出了面向中文的客户评论挖掘方法. 该方法基于改进关联规则算法 实现了针对中文产品评论的产品特征信息挖掘. 本研究采用通过互联网获得的针对手机 、数码 相机 、书籍等 5种产品的评论语料 ,对该方法进行了数据实验 ,实验结果初步验证了该方法有 效性. 关键词 : 用户评论 ; 产品特征 ; 关联规则 ; 数据挖掘 中图分类号 : TP311 文献标识码 : A 文章编号 : 1007 - 9807 (2009) 02 - 0142 - 11
1 相关研究背景
近年来在客户关系管理的研究中有学者强调 客户感知利失在影响顾客满意 、品牌忠诚和 CRM 效果中的作用必将逐渐增大 [ 13 ]. 而目前网络经济 时代中 ,从网络评论中挖掘客户的感知利失信息 是新兴起的研究领域. 对于网络评论的挖掘问题 , 学者 Popescu[ 4 ] 明确将其分为以下几个子任务 :
0 引 言
过去十几年中 , Internet技术与应用的快速发 展不仅给企业的业务流程带来了巨大的变革 ,也 对消费者的行为模式产生了深刻的影响. 一方面 改变了消费者表达对于产品观点和看法的方 式 ———他们可以在销售网站 ,网络论坛 ,讨论小 组 ,以及博客 (B log)中撰写产品评论 ;另一方面这 些产品的“口碑 ”也反过来影响其他消费者做出 购买决策 [ 1, 2 ]. DoubleC lick Inc. 进行了针对美国 服装业 、计算机硬件设备业 、运动健身产品行业及 旅游业网络客户的研究 [ 3 ] ,发现这些行业中 ,近 一半以上的互联网用户做出购买决定前 ,会在互 联网上搜索有关产品介绍及商品评论等信息.
(3) 中英文词汇语法的差别. 与英文评论相 比较 ,中文词性标注算法更为复杂 ,词性标注工具 本身的研究还在不断完善中.
本文正是在中英文语言差异存在的条件下 , 探索中文网络客户评论的产品特征信息提取技 术. 通过对基于关联规则的产品特征挖掘方法进 行原理创新和技术拓展 ,把目前主要面向英文的 评论挖掘方法拓展到中文世界 ,从而解决中文环 境下 ,如何对客户评论中所蕴含的产品特征信息 进行自动挖掘的问题. 该方法的应用 ,将有望帮助 企业和客户在商务过程中更便捷地获取其他客户 对相应产品或者服务的反馈信息.
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
— 144 —
管 理 科 学 学 报
2009年 4月
利用电影评论数据对基于语义倾向的情感分类方 法和基于机器学习的情感分类方法进行了对比分 析 ,发现语义方法的结果与机器学习方法具有相 似性. 上述研究均证实了该语义倾向的客户情感 分析方法的有效性. 除此之外 ,还有一些学者采用 由普林斯顿大学开发的英文词网 (wo rdnet) [ 21 ]进 行英文语义方法的情感分析 ,也取得了较好的分 析结果 . [ 22 ] L iu[ 5 ]等在对于产品特征挖掘后 ,针对 某一特征的情感导向分析正是利用了英文词网中 对于词的语义关系定义.
© 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved.
第 2期
李 实等 : 中文网络客户评论的产品特征挖掘方法研究
— 143 —
掘领域 ,研究者已经初步取得一些成果 ,而针对中 文网络用户评论的研究还处于起步阶段. 随着我 国网络用户群的不断壮大 ,中国电子商务的发展 也逐渐为世界所瞩目. 截至 2007年 12月 ,中国网 民人数已经达到 2. 1亿 ,预计 2008年将超过美国 成为世界第一 [ 10 ]. 不断增长的中文评论已经成为 互联网上一个重要的组成部分 ,为了给企业和个 人提供更为方便的工具 ,自动化和智能化地挖掘 中文评论中的有价值信息是非常必要的. 但是由 于中英文语言存在着较大的差异 ,目前针对英文 评论的研究成果很多无法直接应用于中文评论. 这些差异主要根源在如下一些问题上 :
而由于语言结构的差别 ,现有的面向英文客 户评论情感分类的语义方法 ,无法直接用于中文 客户评论的情感分类. 叶强 ,李一军等探索了中文 环境下的情感分析理论与方法 ,在 PM I2IR方法基 础上 ,初步建立了中文语义倾向情感分析方法 ,并 分别将中文搜索引擎 www. Google. com 和 www. B aidu. com 提供的 AP I集成于实验平台中 ,对手 机 、图书 、电影的中文客户评论进行分析上的应用前景 [ 23 ~ 26 ]. 另 外 , Yao[ 27 ]等在研究中提出了使用电子汉英翻译 词典结合英文词网的方法 ,也是对中文评论情感 分析的一个有益尝试. 1. 2 网络客户评论的主客观分析
用户的情 感 倾 向 主 要 是 通 过 主 观 句 来 表 达 的 ,所以在现有的评论挖掘技术中 ,主观性模式的 自动 识 别 与 判 断 是 非 常 重 要 的 基 础 性 技 术. W iebe等 [ 14 ]针对英文主观情感识别进行了研究 , 选择某些词类 (代词 、形容词 、序数词 、情态动词 和副词 ) 、标点和句子位置作为特征 ,实现对主观 句识别的平均准确率 72. 17%. R iloff等 [ 28 ] 利用 boot2strapp ing算法学习得到了 1052 个主观性名 词 ,单独使用主观性名词为特征 ,采用朴素贝叶斯 分类器对主观句识别的查准率为 77% ,查全率为 64% ;如果加上先前确定的主观线索 (来自词典 和已有的研究结论 )和句子的背景信息 ,那么分 类器对主观句判断的查准率和查全率分别能达到 81%和 77%. R iloff和 W iebe[ 29 ] 进一步提出了从 未经过人工标注的文本中自动提取主观句的方 法. 他们依靠先前研究中确定的主观特征 ,分别建 立了主观分类器和客观分类器 ,自动从未标注的 文本中获得大量主观句 (查准率为 91. 5% ,查全