基于情绪知识的中文微博情感分类方法

合集下载

《基于情感词典和机器学习的微博情感极性分类策略研究》范文

《基于情感词典和机器学习的微博情感极性分类策略研究》范文

《基于情感词典和机器学习的微博情感极性分类策略研究》篇一一、引言随着社交媒体的飞速发展,微博已成为人们获取信息、表达情感和分享观点的重要平台。

因此,对微博内容的情感分析变得尤为重要。

情感极性分类作为情感分析的关键环节,能够帮助我们更好地理解用户情绪,掌握社会舆论动态。

本文将介绍一种基于情感词典和机器学习的微博情感极性分类策略,旨在提高情感分析的准确性和效率。

二、研究背景及意义微博作为一种短文本社交媒体,其内容简洁、表达直接,但情感色彩丰富。

对微博进行情感极性分类,有助于我们了解公众情绪、监测社会舆论、把握市场动态。

此外,情感极性分类还可应用于产品评价、舆情监测、市场分析等领域,具有很高的实用价值。

三、情感词典构建情感词典是情感分析的基础。

在构建情感词典时,我们需要收集大量的情感词汇,包括正面、负面和中性词汇。

此外,还需考虑情感的强度和语境。

在微博情感极性分类中,我们需特别关注微博特有的表情符号、缩写、网络热词等,将其纳入情感词典。

四、机器学习算法应用机器学习算法在情感极性分类中发挥着重要作用。

本文将采用支持向量机(SVM)、朴素贝叶斯(NB)和深度学习等算法进行实验。

这些算法能够从海量数据中学习特征,自动提取有用信息,提高情感极性分类的准确率。

五、策略研究基于情感词典和机器学习的微博情感极性分类策略主要包括以下几个步骤:1. 数据预处理:对微博文本进行清洗、分词、去除停用词等操作,为后续分析做好准备。

2. 特征提取:利用情感词典提取文本的情感特征,同时结合机器学习算法提取其他有用特征。

3. 训练模型:利用已标注的数据集训练SVM、NB和深度学习等模型。

4. 模型评估:通过交叉验证等方法评估模型的性能,选择最佳模型。

5. 情感极性分类:将待分类的微博文本输入已训练好的模型,输出其情感极性。

六、实验与分析本文采用大量微博数据进行实验,对比了基于情感词典、基于机器学习和基于混合策略(情感词典+机器学习)的情感极性分类方法。

基于情感分析的微博自动分类算法研究

基于情感分析的微博自动分类算法研究

基于情感分析的微博自动分类算法研究一、背景介绍微博是国内最具有影响力的社交媒体之一,每天有数百万的用户发布信息。

微博的数据量巨大,因此如何对微博进行自动分类成为了一个重要问题。

二、情感分析的原理情感分析(Sentiment analysis)是一种自然语言处理技术,用于自动识别和提取主观信息。

情感分析的目标是从文本中提取出主观的情感信息,如正面、负面或中性等。

情感分析的原理主要是依靠机器学习算法,使用训练集进行模型训练,再使用测试集进行模型评估和优化。

常见的情感分析算法包括朴素贝叶斯、支持向量机(SVM)、逻辑回归等。

三、微博自动分类微博自动分类是将微博按照不同的主题或类别进行分类。

基于情感分析的微博自动分类算法可以将微博根据情感信息进行分类。

微博的情感信息可以根据一些关键词或短语进行识别。

例如,“好评”、“赞”等词语往往表示正面情感,“差评”、“踩”等词语表示负面情感,“一般”、“中性”等词语则代表中立情感。

在进行微博自动分类之前,需要对微博进行文本预处理,包括分词、去除停用词、词干提取等操作。

然后使用机器学习算法对文本进行分类,常用的算法包括朴素贝叶斯、支持向量机(SVM)等。

四、研究现状目前,国内外学者都在进行基于情感分析的微博自动分类的研究。

国内主要研究机构包括中科院、清华大学、中山大学等。

在具体算法方面,国内外学者采用的算法包括朴素贝叶斯、支持向量机、决策树、神经网络等。

此外,还有一些研究者进行了深度学习方面的探索,如使用卷积神经网络(CNN)进行微博分类。

五、算法比较朴素贝叶斯算法是情感分析中最常用的算法之一,它的优点是速度快、准确率高。

但是,该算法对于语料库的质量要求比较高,需要较为准确的训练集和测试集。

支持向量机算法在文本分类中也有广泛的应用,相比于朴素贝叶斯算法,SVM算法更加灵活,可以适用于更加复杂的文本分类任务。

决策树算法也是一种常用的分类算法,它的主要缺点是容易过拟合。

因此,在进行微博分类时需要进行一定的优化和调整。

基于词典的中文微博情绪识别

基于词典的中文微博情绪识别

基于词典的中文微博情绪识别基于词典的中文情绪识别是通过建立情感词典库,将待分类的文本与词典中的词汇进行匹配,从而确定文本的情感极性。

情感词典库通常由正面和负面情感的词汇组成,这些词汇被分配相应的权重,以表示其对情感极性的贡献程度。

当文本与词典中的词汇匹配时,计算其与所有词汇的相似度,并根据权重得出文本的情感极性。

基于词典的中文情绪识别的实现方法主要包括以下步骤:数据预处理:对中文进行分词、去停用词等预处理操作,以消除其对情感分析的影响。

建立情感词典库:收集正面和负面情感的词汇,并分配相应的权重。

文本与词典匹配:将待分类的文本与情感词典库中的词汇进行匹配,计算其与所有词汇的相似度。

情感极性分类:根据计算出的相似度和权重,确定文本的情感极性。

基于词典的中文情绪识别可以应用于以下场景:产品评价:企业和政府机构可以通过该技术了解公众对其产品和政策的情绪反应,从而做出相应的决策。

市场调查:商家可以利用该技术进行市场调查,了解消费者对其产品和竞争对手产品的态度和看法。

舆情监控:政府机构可以利用该技术进行舆情监控,及时掌握公众对其政策和行为的反应。

基于词典的中文情绪识别的优点主要包括以下几点:算法简单:基于词典的中文情绪识别算法相对简单,易于实现和理解。

高效快速:该算法的计算复杂度较低,可以快速对大量文本进行情感分类。

准确性较高:由于情感词典库中的词汇都是经过精心挑选和实验验证的,因此该算法的准确性较高。

扩展性不足:情感词典库中的词汇数量有限,无法涵盖所有的情感表达方式,因此该算法的扩展性不足。

忽略上下文信息:该算法仅对文本中的单个词汇进行匹配,忽略了上下文信息,因此可能会出现误判的情况。

对新词无法识别:由于情感词典库中的词汇都是经过人工挑选和实验验证的,因此该算法对新出现的词汇无法进行识别和分类。

基于词典的中文情绪识别是一种重要的情感分析技术,可以应用于多个场景。

然而,该算法也存在一些缺点需要改进和完善。

未来可以通过引入深度学习等技术来提高算法的准确性和扩展性。

微博情绪识别与分类研究

微博情绪识别与分类研究

微博情绪识别与分类研究随着社交媒体的普及和微博用户数量的快速增长,人们不仅可以方便地获取各种信息,还可以随时表达自己的情感和观点。

然而,海量的微博信息也给情绪分析带来了挑战。

微博情绪识别与分类研究旨在通过自然语言处理和机器学习等技术,准确地识别和分类微博中所包含的情绪。

第一部分:微博情绪识别微博情绪识别是指通过分析微博文本,准确判断文本中所表达的情绪。

情绪分为积极情绪和消极情绪两种,常见的包括愤怒、悲伤、喜悦等。

传统的方法主要基于规则和词典,利用情感词汇库对微博进行情感判断。

然而,这种方法易受到语境和主观因素的影响,准确性较低。

近年来,随着深度学习技术的迅速发展,基于深度神经网络的微博情绪识别模型逐渐被引入。

利用长短时记忆网络(LSTM)或卷积神经网络(CNN)等结构,通过大量的文本数据进行训练和学习,不仅提高了模型的准确性,还能够捕捉上下文信息和语义特征,从而提供更加精准的情绪判断。

第二部分:微博情绪分类微博情绪分类是指将微博文本按照情绪进行归类。

与情绪识别相比,情绪分类更加细粒度,常见的情绪分类包括愤怒、悲伤、恐惧、喜悦等。

传统的分类方法主要基于特征提取和机器学习算法,将微博文本表示为向量形式,并通过支持向量机(SVM)、朴素贝叶斯等算法进行分类。

然而,传统方法需要手动提取特征,且对语义信息的捕捉有限。

近年来,基于深度学习的微博情绪分类成为研究的热点。

通过构建深度神经网络模型,将微博文本作为输入,通过多层神经网络逐渐学习到高级特征和语义内容,最终进行分类。

深度学习的模型不仅能够自动捕捉微博中的上下文信息和语义特征,还能够通过大规模数据的训练进一步提高分类准确性。

第三部分:微博情绪识别与分类的应用微博情绪识别与分类技术在社交媒体分析、舆情监测和个性化推荐等领域具有广泛的应用前景。

首先,对情绪进行准确的识别和分类可以帮助企业和机构分析用户态度和情感趋势,了解用户需求和市场变化,从而制定相应的营销策略或政策调整。

基于情感分析的在微博用户情绪识别与预测研究

基于情感分析的在微博用户情绪识别与预测研究

基于情感分析的在微博用户情绪识别与预测研究摘要:随着社交媒体的蓬勃发展,微博作为一个重要的社交平台,吸引了大量用户进行信息发布和交流。

微博用户的情绪状态对于用户行为和舆情分析具有重要意义。

本文通过基于情感分析的方法,对微博用户的情绪进行识别与预测研究,旨在帮助用户和营销者了解用户情绪,进而实施个性化服务和精准营销。

1. 引言社交媒体已成为人们获取信息和表达情感的重要渠道之一。

微博作为最具代表性的社交平台之一,每天都有大量的用户在上面发布各种信息,表达自己的心情和情感。

因此,对微博用户情绪的识别与预测研究具有重要意义,能够帮助用户更好地理解他人的情绪,营销者更好地了解用户需求。

2. 相关工作在情感分析领域已经有很多研究工作,但是由于微博的特殊性,情感分析在微博上面的应用仍然面临一些挑战。

目前主要的研究方法包括基于词典的情感分析、基于机器学习的情感分类和基于深度学习的情感预测等。

3. 情感分析模型为了识别和预测微博用户的情绪,我们构建了一个基于深度学习的情感分析模型。

首先,我们使用了一个大规模的语料库进行模型训练,以提高模型的准确性和泛化能力。

然后,我们使用了卷积神经网络和长短期记忆网络结合的方法,对微博文本进行情感分析。

最后,我们通过预训练的情感分类模型,对微博用户的情绪进行预测。

4. 数据集和实验我们使用了一个包含了大量微博文本和情感标签的数据集进行实验。

首先,我们对数据集进行了数据清洗和预处理,去除了噪声和不相关的信息。

然后,我们将数据集划分为训练集和测试集,以评估我们提出的情感分析模型的准确性和性能。

最后,我们比较了不同情感分析模型的效果,并与传统方法进行了对比分析。

5. 结果与讨论实验结果表明,我们提出的基于深度学习的情感分析模型在微博用户情绪识别和预测方面取得了较好的效果。

与传统方法相比,我们的模型在准确性和泛化能力上都有一定的提升。

此外,我们还发现微博用户的情绪受到许多因素的影响,包括文本内容、用户属性和社交网络结构等。

结合情感词典与规则的微博情感极性分类方法

结合情感词典与规则的微博情感极性分类方法

1背 景
自然语 青处 作 为计算机学科 I ・ 个重要 的研究方 向, 多年来一直 吸引了广大专 家学者对其进 行研究 。针对微 博文本 的情 感分析 , 是这儿年 自然 语肓处 理的一个研究热点 。相较 于英 文微 博 , 为 中文 自身存在的语法 、 语义复杂性 , 使得 中文微博 的情 感
分析研究起步较 晚 , 研究成果 较少 。 国内较 为知名的 、 参 与度较高的 中文微博 义本情感 分析测评 主要有 C O A E和 N L P &C C两个会议测评 。C O A E是 中文倾 向性 分
析评测 的简称 , 它 以全国信 息检索学术会议 ( C C I R ) 为依托 , 迄今为止 已成功组织 了六届 , 并 从第 五届 即C O A E 2 0 1 3 开始 , 增加设 置 了中文微博 情感判别 的测评任 务。N L P & C C 是 自然语 言处理与 中文计算 会议 的简称 , 目前共举办 了两届 , 它 的评 测作为 中国计算 机学会 ( C C F ) 中文信息技 术々委 会学术年 会的 一部分 , 测评任 务设置包 含了中文微博 情感 识别 。这两个会议测评都受 到了国内外
微 博预料后 , 分类效果下降较明显 , 方法 的普适性不强 。
文本 的语 义规则 , 建立微博文本情感分析模型 , 对微博语料判别情感分类 。
本 文的组织架构如下 : 第 二章埘相关背景进行介绍 ; 第三章分析所提 出的模型及其设计 ; 第 四章将实验结果 进行对 比分析 ; 第
五章是 总结 。
目前 , 进行情感 分析主要有两种方法——情感 词典 的方法 和机器 学习的方法 。运用情感词典 的方法 , 是根据语料 中包含 的 正向、 负向 、 中性情感词 的数 目或其权 值等元素来判别情感分类 ; 运用机器学 习的方 法 , 是先对语料进行 特征选取 , 对训练集 、 测试

微博用户情感分类算法研究与评价

微博用户情感分类算法研究与评价

微博用户情感分类算法研究与评价微博是一种充满情感的社交媒体平台,它为用户提供了一个自由表达想法和感受的场所。

在微博上,用户分享喜怒哀乐,感受到其他用户的共鸣和支持。

然而,如何有效地挖掘和理解微博中用户的情感,一直是人们关注的问题。

本文从微博用户情感分类算法的角度出发,探讨该问题并提出评价方法。

一、微博用户情感分类算法微博用户情感分类算法主要是基于自然语言处理技术,将微博中的文本内容划分为积极、中性和消极三类情感。

目前,主流的情感分类算法主要包括基于词典、基于机器学习和基于深度学习等方法。

基于词典的情感分类算法是最简单的方法,它主要是建立一个情感词典,通过词典中情感词的数量和权重来判断微博的情感倾向。

这种方法的优点是简单易实现,缺点是对复杂句子的情感处理效果较差。

基于机器学习的情感分类算法是一种常用的方法,它主要是构建训练集和测试集,使用统计学习算法对大量微博数据进行模型训练和测试。

该方法的优点是能够识别复杂句子中的情感,缺点是依赖于训练集的质量和数量,需要大量的数据和算力支持。

基于深度学习的情感分类算法是当前最热门的方法,它主要是使用神经网络结构对微博文本进行抽象和表示,进而实现情感分类。

该方法的优点是具有较强的泛化能力和自适应能力,可以处理大量复杂的微博数据,缺点是需要大量的训练数据和高性能的计算设备。

二、评价微博用户情感分类算法的方法评价微博用户情感分类算法的方法主要包括准确率、召回率、F1值和混淆矩阵等指标。

准确率是指分类器正确分类样本数占总样本数的比例,它反映了分类器分类判断的准确性。

召回率是指分类器正确分类的样本数占真实标签为该类别的样本数的比例,它反映了分类器对该类别的识别能力。

F1值是准确率和召回率的综合评价指标,它通过调和平均的方式综合考虑了准确率和召回率。

混淆矩阵是一种可视化的方式,它用于评价分类器对分类结果的正确性。

混淆矩阵具有四个分类区域,分别表示真正类、假正类、真负类和假负类。

基于情感识别的微博文本分类技术研究

基于情感识别的微博文本分类技术研究

基于情感识别的微博文本分类技术研究一、引言随着社交媒体应用的普及,如微博、Twitter等,人们在日常生活中愈加倾向于使用这些平台来表达自己的情感和观点,其中微博作为国内最大的社交媒体之一,以其短小的文字和性质话题的特点,成为了许多人表达情感和见解的重要平台。

然而,这些信息的海量涌现也给文本分类和情感分析带来了挑战。

二、微博文本分类技术的研究微博文本分类技术主要可以分为两类:传统机器学习方法和深度学习方法。

2.1 传统机器学习方法传统机器学习方法包括朴素贝叶斯分类器、支持向量机、K最近邻算法等,这些方法被广泛应用于文本分类领域,显示出良好的分类效果。

以最常用的朴素贝叶斯分类器为例,其利用贝叶斯推断进行文本分类,根据贝叶斯公式,计算文本分类概率,然后将概率最大化的标签作为最终的分类结果。

虽然朴素贝叶斯分类器具有训练速度快,模型复杂度低等优势,但其受到文本噪声和特征相关性等问题的影响,容易产生误分类现象。

2.2 深度学习方法深度学习方法是近年来在文本分类领域得到广泛关注的新兴技术,其以神经网络为基础,通过多层次非线性变换,将文本特征映射为隐层特征,最终实现文本分类。

深度学习方法主要有卷积神经网络、循环神经网络等。

卷积神经网络针对文本局部信息的特点,采用卷积层提取文本特征,通过池化层降维,最终利用全连接层完成分类任务。

循环神经网络则主要适用于序列数据的处理,其采用门控机制,能够保留长时间序列信息,避免信息丢失。

基于LSTM的循环神经网络在文本情感分类领域中取得了良好的效果。

三、情感识别技术的研究情感识别是对文本情感进行自动识别的一种技术,其在情感分析、口碑评价等领域具有广泛应用。

情感识别技术主要可分为基于词典和基于机器学习的方法。

3.1 基于词典的方法基于词典的方法将情感分析转化为对文本中情感词标记的统计,通过积累词典中情感词在文本中的出现数量来计算文本情感分值。

这种方法基于精选的、手动标注的情感词典,利用情感词的语义信息对文本进行情感极性的判定。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

2
2.1
相关工作
情感分类方法 情感分类是按照文本表达的情感倾向性对文本进行分 类 [1]。例如,判断文本对某个事物的评论是“好”还是“坏” 。 情感分类的研究历史虽然不长,但是已成为自然语言处理方 向里面的一个研究热点,近年来文本情感分类技术已比较成 熟。目前,情感分类的研究方法主要可以分为 2 种研究思路: 非监督的分类方法和监督的分类方法。前者主要依靠一些已 有的情感知识 ( 情感词典或领域词典 ) 以及一些规则获取情感 文本的极性,例如,文献 [2-4]首先分析文本中评价词语的极 性,然后进行极性加权求和。这种方法的重点一般都放在评 价词语的抽取和极性判断方法的研究上;后者主要是使用机


磊 1,2,李寿山 1,2,周国栋 1,2
(1. 苏州大学计算机科学与技术学院,江苏 苏州 215006;2. 江苏省计算机信息处理技术重点实验室,江苏 苏州 215006) 要:通过对新浪微博文本进行情感信息方面的分析与研究,提情图片
2 种情绪知识对大规模微博非标注语料进行筛选并自动标注,用自动标注好的语料作为训练集构建微博情感文本分类器,对微博文本进行 情感极性自动分类。实验结果表明,该方法对微博文本的情感极性分类达到较好的效果。 关键词:中文信息处理;无监督学习;情绪知识;微博;情感分类
基金项目:国家自然科学基金资助项目(61003155, 60873150) 作者简介:庞 磊(1985-),男,硕士研究生,主研方向:自然语言 处理;李寿山,副教授;周国栋,教授、博士生导师 收稿日期:2011-08-31 E-mail:panglei.nlp@
第 38 卷
第 13 期
第 38 卷 第 13 期 Vol.38 No.13 ·人工智能及识别技术·
计 算 机 工 程 Computer Engineering
文章编号:1000—3428(2012)13—0156—03 文献标识码:A
2012 年 7 月 July 2012
中图分类号:TP391
基于情绪知识的中文微博情感分类方法

磊,李寿山,周国栋:基于情绪知识的中文微博情感分类方法
157
器学习的方法,选取大量有意义的特征来完成分类任务。在 监督的分类方法中有很多代表性的研究工作,这类方法一般 都是基于特征的。文献 [1]首次将机器学习的方法应用于篇章 级的情感分类任务中,并指出这种方法比非监督的分类方法 在分类性能上有明显的优势。文献 [5-7] 在有效特征的发现以 及特征选择和特征融合等方面做了相应研究。文献 [8]在分类 器的选择上和分类器融合等方面做了相应研究。近年来,中 文情感文本分类方面的研究也得到了迅速的发展,例如,文 献 [8-10] 基 于 特 征 的 监 督 分 类 方 法 是 目 前 主 流 的 情 感 分 类 方法。 微博情感分类方法 微博是一种新兴的社交网络服务,目前针对微博文本的 情感分类研究还相对较少。文献 [11] 提出了利用距离监督的 他们的主要贡献在于 方法对 Twitter 上的微博进行情感分类, 利用了 Twitter 上的表情符号作为标签收集英文语料作为训 练集,省去了人工标注语料的过程。文献 [12] 提出对英文微 博语料进行收集与自动标注,进行情感分析与意见挖掘的研 究。文献 [13] 提出在微博上通过加入评价对象相关的特征来 提高情感分类的效果。文献 [14]利用 Twitter 上的标签和笑脸 表情符对 Twitter 上的微博语料进行强化学习研究。 不同于以上文献的工作,本文采用表情图片,并收集使 用了情绪关键词对微博语料进行收集与自动标注,使得标注 样本在规模和性能上都有进一步的提升。本文是首次对中文 微博进行情感分类方法研究。 2.2
Sentiment Classification Method of Chinese Micro-blog Based on Emotional Knowledge
PANG Lei1,2, LI Shou-shan1,2, ZHOU Guo-dong1,2
(1. School of Computer Science and Technology, Soochow University, Suzhou 215006, China; 2. Provincial Key Lab of Computer Information Processing Technology of Jiangsu, Suzhou 215006, China) 【Abstract】This paper proposes an unsupervised method of sentiment classification and applies it to perform sentiment classification on Sina micro-blog. The approach employs emotional images and emotional words as the emotional knowledge to extract pseudo-labeled samples, and uses them to train a classifier for automatically classification on polarities of the miro-blog. Experimental results show that the method achieves a decent performance on sentiment classification for Chinese micro-blog. 【Key words】Chinese information processing; unsupervised learning; emotional knowledge; micro-blog; sentiment classification DOI: 10.3969/j.issn.1000-3428.2012.13.046
表1
正面情绪词 开心 快乐 兴奋 … 放松 感动
情绪词
负面情绪词 悲催 痛心 郁闷 … 心寒 懊悔
3
3.1
中文微博语料收集与标注
语料收集 从新浪微博上收集了 2 个话题 (电影、手机 )的语料。然 后以情绪词和表情图片作为情绪知识来过滤未标注样本,得 到只含有情绪词或表情图片的样本,通过情绪词以及表情图 片所反映的用户情绪 ( 积极与消极 ) 对含有这些信息的文本进 行自动标注。 语料自动标注方法 文献 [11] 通过收集含有表情符号的微博,以这些表情符 号作为微博情感倾向的标识。 这样就省去了人工标注的环节。 例如,将含有 :)、:-)的样本标注为正例样本;将含有 :(、 :-(的 样本标注为负例样本。与文献 [11]不同的是,本文利用 2 种 情绪知识 ( 表情图片和情绪词 ) 对大规模未标注样本进行自动 标注,以获取训练样本。 3.2 表情图片自动标注方法 在中文微博中经常出现一些表情图片,这些表情图片要 比表情符号反映的情绪更为明确。选取了正面表情与负面表 情各 8 种情绪倾向比较明确的表情图片,如图 1 所示。 3.2.1
图1
表情图片
4
4.1
将微博中含有正面表情图片的文本归为正面评论,含有 负面表情图片的文本归为负面评论。 3.2.2 情绪词自动标注方法 由于仅以表情图片作为情绪知识自动标注的样本数量相
实验结果及分析
自动标注样本的结果分析 表 2 给出在手机和电影这 2 个话题的微博 (各 10 000 条 ) 中,分别以表情图片和情绪词作为情绪知识自动标注语料的 规模。
1
概述
微博是 Web2.0 时代兴起的一种集成化、 开放化的互联网 社交服务。它打通了移动通信网和互联网的界限,用户可以 通过手机、 IM 软件和外部 API 接口等途径,即时向外发布 140 字以内的文本,越来越受到互联网用户的青睐。统计显 示,截止到 2011 年 5 月底,仅在 Twitter 网上的微博注册用 户就已达 3 亿。在发展相对较晚的中国,微博也呈爆炸性增 长,从 2009 年 8 月新浪微博开始发布到 2011 年 4 月,仅 20 个月的时间,新浪微博注册用户便达到 1.42 亿,用户每天 要发布近 5 000 万条微博内容。规模庞大的微博文本的自动 处理给自然语言处理研究提出了新的挑战和机遇。在这些海 量的文本信息中,有很大一部分是带有情感的文本信息。这 些情感文本信息是非常宝贵的意见资源,可以利用这些文本 信息进行情感文本分类研究。 本文通过对中文微博的研究与分析,提出一种利用情绪 知识实现微博上非监督的情感文本分类方法,通过情绪知识 从大规模未标注语料中自动获取伪标注语料,然后利用这些 伪标注语料作为训练集训练分类器,实现微博文本情感的自 动分类。根据微博的特点,利用 2 种情绪知识 (即情绪词和表 情图片 ) 自动标注语料。通过该方法可以很容易地获得训练 集,从而省去了人工标注的过程。 本文利用情绪词作为情绪知识自动标注语料主要考虑到 以下 3 个原因: (1)情绪是人在受到外界事物的影响后发出的,如果在一 篇微博中同时出现了情绪词和与某一话题相关的评论, 那么,
利用情绪词作为情绪知识进行自动标注,共分为以下 3 步来完成: (1)将含有情绪词的文本粗分为 2 类,含有正负情绪词的 评论归为正面评论,含有负面情绪词的文本归为负面评论。 (2)对含有否定词的文本进行处理,收集了 17 个否定词: 避免,并不是,不,不会,没有,不可能,很难,不太,减 少,没,不再,没能,一改,怎么能,怎么会,不可以,很少。 针对第 (1)步的粗分结果,将情绪词前面带有否定词的文 本放入到相反的类别中去,例如,在“今天去看了×××, ×××果然没有让我失望。 ”这句话中, “失望”前面有否定 词“没有” ,那么第 (1) 步粗分的结果与实际情况相反,所以 要将情绪词前带有否定形式的文本放入粗分结果相反的类别 中去。 (3)针对第 (2)步处理结果, 将在文本中同时含有 2 种冲突 情绪的文本删除。在处理这些有情绪冲突的语料时,并没有 进一步判断这些语料到底是什么极性,为了保证自动标注语 料的精确性,直接将有冲突情绪的语料删除,例如,在“从 电影开场,紧张的神经就一直没有放松过,团队合作,领导 力,坚持永不撤退的信念,这道主旋律一直贯穿始终,让人 感动。×××,值得一看。 ”这句话中, “放松”是正面情绪 词, 通过第 (1)步处理将它归入正面评论类; 在第 (2)步处理时, 因为“放松”前有否定词“没有” ,所以要将它放入负面评论 类;最后,又在这条论评里面发现了正面情绪词“感动” ,所 以,在这条评论中情绪有冲突的现象,要将这条语料删除。 通过以上 3 步处理,就能获取比仅用表情图片作为情绪 知识自动标注语料规模大的标注语料。
相关文档
最新文档