中文微博评论的情感倾向分析

目录

第一章绪论 (1)

1.1研究背景及意义 (1)

1.1.1研究背景 (1)

1.1.2研究意义 (2)

1.2国内外研究现状 (3)

1.2.1词汇极性分析研究现状 (3)

1.2.2句子极性分析研究现状 (4)

1.2.3篇章级极性分析研究现状 (5)

1.3本文的组织结构 (5)

第二章相关理论与技术基础 (7)

2.1情感分析 (7)

2.2关于HowNet (8)

2.3自然语言处理介绍 (10)

2.4文本预处理 (11)

2.4.1中文分词 (11)

2.4.2词性标注 (13)

2.4.3停用词处理 (15)

第三章文本情感分类方法 (17)

3.1机器学习方法分类 (17)

3.1.1有监督学习方法 (17)

3.1.2半监督学习方法 (17)

3.1.3无监督学习方法 (17)

3.2研究问题分类 (24)

3.2.1领域相关性研究 (24)

3.2.2数据不平衡问题研究 (24)

3.3基于情感词典的分类方法 (25)

第四章一种改进的词汇语义极性分析算法 (27)

4.1传统算法 (27)

4.1.1词语相似度计算 (27)

4.1.2义原相似度计算 (27)

4.1.3实词相似度计算 (27)

4.2改进算法 (28)

4.3实验与分析 (31)

4.3.1词汇相似度测试 (31)

4.3.2词汇极性分析测试 (32)

4.3.3实验评价 (33)

第五章基于Hopfield网络的句子情感倾向分析 (36)

5.1Hopfield网络的基本概念 (36)

5.2Hopfield网络的学习算法 (37)

5.3基于Hopfield网络的句子极性判断算法 (38)

5.4实验分析与评价 (39)

5.4.1评价指标 (39)

5.4.2实验设计与结果分析 (39)

第六章总结 (41)

6.1全文总结 (41)

6.2今后工作展望 (41)

参考文献 (43)

个人简历在读期间发表的学术论文 (46)

致谢 (47)

第一章绪论

第一章绪论

1.1研究背景及意义

1.1.1研究背景

随着互联网的快速发展,大数据时代悄然到来,各个行业及各个领域都有涉及到了大数据,并且吸引到了越来越多的关注,而现在最流行的自然语言处理技术就是大数据的分析技术。现在几乎人人都会上网,在路上可以看到人们都无时无刻都在刷微博、刷朋友圈、刷微信,人们通过网络进行交流、工作、购物等等,人们通过网络认识朋友,通过朋友又认识朋友的朋友,人们的关系网因此也越来越广,网络在我们的平日生活中也扮演着一个越来越重要的角色。互联网的快速发展伴随着许多在线社交平台的诞生,如微博,博客,FACEBOOK等。其中,作为一种集交流及分享在一起的平台,微博平台最大的特点就是随意性及实效性。微博与博客最大的不同点就是,每时每刻微博的内容都在更新,人们的动态都能得到追踪,而博客则表现的是一个阶段内所感、所闻、所见,因此人们现在常选择刷微博作为它们的娱乐方式。目前,微博是许多学者的研究热点,Sui Yue,Yang对微博的概念及特征做了比较深入的探讨,另外也对微博的市场进行了战略分析;Beaux Sharifi等人针对微博文本做出了详细的分析,并提出了一种微博自动文摘算法;Yang Shen等人通过对语料库的情感识别来对微博中的内容的极性做出判断,等等。

微博(Microblog)又简称为微型博客,它是这样的一种社交网络平台,人们通过关注这种方式来对信息进行实时分享、交流及传播。微博内容的总长度被规定在140个字符之内,通过Web及Wap,人们可以进行单向及双向的关注。通过微博平台,发布者发布的消息可以推送给它的听众,而非听众只能通过浏览发布者的主页来查看信息的实时更新。因此,现在越来越多的用户倾向于直接在微博上晒出个人的观点,情感或者是对信息资源的评论,这些评论观点在一定程度上表达出了用户对某产品或者是信息资源的态度,并且表现出了强烈的褒贬性,用户则可以依据自己的个人喜好,依据对方发布消息的类型及质量来选择“关注”该用户或者购买某商品[1]。由此产生了一系列微博效应,微博反腐、微博销售、自媒体等,这也是真正的体现了微博的社会价值。

语言及文字不仅是文化及信息的载体,同时也是文化的的组成元素。而相对于国外,中国在自然语言方面的起步比较晚,而汉语的一些固有特征使得中文信息处理具有一定的挑战性。近年来,随着互联网的不断发展,自然语言处理技术在计算机领域和人工智能领域都有着不可替代的作用[2],自然语言研究的研究对象是一种语言,它旨在实现人与人,人与机器之间的交流与通信。自然语言处理是一门融计算机科学、数学、语言学于一体的科学,显然这一领域的研究也包括了自然语言,所以它跟语言学的研究也是密

相关主题
相关文档
最新文档