Web 评论主流观点提取及不同源数据的对比分析
网评分析:网络评论数据的分析和解读

网络评论已经成为人们表达观点和交流意见的重要方式,同时也是许多研究者和决策者关注的焦点。
通过对网络评论数据进行分析和解读,可以深入了解公众的想法和态度,为决策制定提供参考。
本文将探讨网络评论数据的分析方法,并解读其在社会、政治和经济等领域的影响。
【第一部分:网络评论数据的分析方法】1.1 数据收集与整理网络评论数据的收集可以通过爬虫技术获取社交媒体、新闻网站或论坛上的评论内容。
这些数据需要进行整理、清洗和标注,以便后续的分析和解读。
1.2 文本挖掘与情感分析文本挖掘技术可以帮助分析大量的评论文本,从中提取出关键词、主题和观点。
情感分析可以判断评论中的情感倾向,如正面、负面或中立,进一步了解公众对某一事件或议题的态度和情感。
1.3 社交网络分析通过社交网络分析,可以分析评论者之间的关系和互动模式。
例如,可以构建用户网络图谱,分析评论者之间的关注关系和意见传播路径,进而了解社交网络中的意见领袖和意见影响者。
【第二部分:网络评论数据的解读】2.1 公众舆论和话题热度通过对网络评论数据的分析,可以了解公众对不同话题的关注程度和讨论热度。
某一事件或议题引发的评论数量和情感倾向可以反映公众对该事件的态度和情感反应。
2.2 政策决策参考政府和决策者可以通过分析网络评论数据来获取公众对政策的看法和意见。
这些数据可以为政策制定提供参考,帮助决策者更好地了解公众需求,调整政策方向和措施。
2.3 品牌声誉和市场反馈企业可以通过分析网络评论数据了解公众对其产品或服务的评价和反馈。
这些数据可以用于评估品牌声誉、市场竞争力以及消费者需求的变化趋势,为企业决策提供依据。
2.4 社会舆论监测和危机管理分析网络评论数据可以帮助监测社会舆论的走向和变化,及时发现潜在的危机和问题。
政府、组织和企业可以通过对网络评论的解读,及时做出回应和调整,有效管理危机和舆情。
【第三部分:网络评论数据分析的挑战】3.1 数据质量和准确性网络评论数据的质量和准确性是一个重要的挑战。
基于大数据的网页信息抽取与内容分析研究

基于大数据的网页信息抽取与内容分析研究随着互联网的发展和智能设备的普及,网络上的信息量呈现爆炸性增长。
然而,人工阅读和理解这些海量网页信息无疑是一项巨大的挑战。
因此,基于大数据的网页信息抽取与内容分析研究应运而生,旨在开发自动化的技术方法,实现对网页信息的有效提取和内容的深入分析。
一、大数据的网页信息抽取1. 网页信息抽取的背景与意义:随着互联网快速发展,网页领域的信息量越来越庞大。
人工抓取并处理这些数据是一项繁琐而耗时的工作。
因此,开发能够自动提取网页信息的技术势在必行。
网页信息抽取能够以结构化的方式提取出网页中的关键数据,为后续的内容分析和应用提供坚实的基础。
2. 网页信息抽取的关键技术:(1)网页解析技术:网页信息抽取的首要任务是解析网页的HTML源代码,提取出需要的数据。
常用的网页解析技术有基于规则的解析、基于模板的解析、基于机器学习的解析等。
(2)网页结构化技术:通过网页结构化技术,将未经格式化的网页数据转化为结构化的数据。
这种转化有助于更好地理解和分析网页内容。
(3)网页内容去重技术:互联网上存在大量重复的网页内容。
为了避免重复数据对后续分析的干扰,需要开发精准的网页内容去重技术,实现对重复网页的筛选和过滤。
3. 网页信息抽取的应用:(1)网络搜索引擎:网页信息抽取技术是搜索引擎的核心基础,通过抽取网页中的关键信息,实现用户的查询需求。
(2)数据挖掘与预测:通过对大量网页数据的抽取,可以挖掘出隐藏在数据中的有用信息,为企业的决策提供支持。
二、基于大数据的网页内容分析1. 网页内容分析的背景与意义:随着互联网信息的爆发式增长,普通用户和企业都面临着海量信息分析的挑战。
网页内容分析是将庞大而杂乱的网页数据进行分类、聚类和归纳的过程,可以帮助我们深入理解和利用网页信息。
2. 网页内容分析的关键技术:(1)文本挖掘技术:文本挖掘技术是网页内容分析的核心方法之一,通过对网页文本进行分词、词性标注、关键词提取等处理,实现对文本信息的理解和分析。
网络数据采集与分析的技术方法

网络数据采集与分析的技术方法随着互联网的普及和发展,网络数据采集与分析也成为了一个非常重要的技术领域。
网络数据采集与分析技术的主要目标就是从网络上获取数据,并对这些数据进行分析处理,以便提供有关信息的决策依据。
本文将介绍网络数据采集与分析的技术方法和应用场景。
一、网络数据采集方法1、网页抓取技术网页抓取技术是一种可以自动抓取网页上的信息的方法。
这种技术可以让用户通过指定关键字或者URL的方式,抓取指定的网页上的信息,并将其转化为结构化的数据。
网页抓取技术可以用于创建新闻聚合网站、产品价格比较网站、社交媒体监测系统等应用。
2、API接口获取数据API(Application Programming Interface)是一种用于获取特定数据的接口。
这种技术可以通过已经定义好的API来获取需要的数据。
API可以获取各种类型的数据,包括文本、图片、音频和视频等。
API接口获取数据可以用于创建社交媒体应用、在线零售平台、移动应用程序等应用。
3、爬虫技术爬虫技术是一种可以自动收集特定数据的技术。
爬虫可以使用搜索引擎的API和互联网上公开的爬虫工具等方式获取数据。
爬虫技术可以用于收集数据,如获取比特币价格、采集新闻文章等。
二、网络数据分析方法1、文本分析文本分析是一种用于将文本转换为可处理的结构化数据的方法。
这种方法可以将文本转换为主题、情感等方面的数据,并进行分析。
文本分析可以用于数据挖掘、社交媒体监测、品牌声誉分析等应用。
2、数据挖掘数据挖掘是一种用于探索和分析数据的方法。
数据挖掘的目标是发现结构、角色、关系和模式等隐藏在数据背后的信息。
数据挖掘可以用于推荐系统、客户细分、诈骗检测、市场预测等应用。
3、机器学习机器学习是一种基于统计学、人工智能和计算机科学的技术,它可以自动改善和提升算法的性能。
这种技术可以从数据中学习,从而自动进行分类和预测。
机器学习可以用于自然语言处理、图像识别、医疗诊断等应用。
三、网络数据采集和分析应用1、社交媒体监测社交媒体监测是一种用于监测社交媒体上的品牌、产品、竞争对手和消费者的方法。
做网站数据分析,必掌握的两个分析方法

做网站数据分析,必掌握的两个分析方法本次讲的是两个基础的分析方法,对比分析和细分分析法。
这两个方法在今后的分析工作中几乎处处要用到,这也是基本的数据分析思路,所以提前到这里来讲。
一、对比分析法对比分析法在本质上是通过数据计算方法来判定两个解决方案的优劣。
一个常见的例子是:同一个电商网站上的商品A和商品B,哪一个对网站贡献更大呢?按常规的考量销量的方式显然不足以进行全面的对比,在这里我们要综合考虑访问量、转化率、商品热度才能更全面的评估两个商品对网站的贡献。
1、对比分析法的比较基准比较基准的设定是统一对比单位的重要步骤,设定方法分别是:百分比评分均值法、标准化指标合并法。
1.1 百分比评分均值法“百分比评分均值法”是将指标的值都转化成百分比的形式,一个通用有效的方法就是将所有指标都除以总体的最大值,这个方法对所有大于0且分布不是特别离散的指标都是很有效的。
举个例子说明——从下面的表格中知道,4种商品中访问量最高的是商品A的563 ,转化率最高的是商品B的9%。
所有商品的访问量除以563,转化率除以9%,然后得到各自的百分比评分,然后将两列评分做简单平均后得到综合评分。
显然,通过比较综合评分来判断商品在表现更合理。
如果考虑的再全面些,针对不同商品的重要性设定权重,结果更能真实有效的评估商品的好坏。
比如,上面表格中采用加权平均的方法,商品的综合评分又发生了变化,如下图。
至于是否加权,以及各指标的权重如何设定,则可以根据分析的需要和指标的特征来确定。
1.2 标准化指标合并法“标准化指标合并比较法”是用标准化的方法消去各指标单位的影晌后再进行合并比较的方法。
数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
公式为X=(x-u)/σ(U代表均值,σ代表方差)举个例子——如下表格中数据,Bounce Rate衡量进入,转化率CR衡量产出。
A、B、C三个优化方案哪个才是最优的呢?将各指标标准化后取均值进行比较,我们可以看出A方案最优。
Web信息提取技术研究与应用分析

Web信息提取技术研究与应用分析作者:李文来源:《电子技术与软件工程》2015年第03期摘要随着我国社会经济和计算机网络技术的不断的发展,Internet已逐渐广泛应用到人们的日常生活中,并且利用web来提取信息已变为人们生活中不可缺少的一个部分。
然而目前,相当一部分网络信息是通过万维网的web,这个庞大的资源库的页面提供的,大量的冗杂的web信息给web信息的快捷提取带来了很大的困难。
因此,研究出精准的检索技术已经成为相关单位迫切需要解决的重要课题之一。
本文对web信息提取技术研究的必要性进行了浅要分析与探讨,并详细介绍了目前各种典型的web信息提取系统,并对其优缺点做出了进一步分析与探讨,供以参考。
【关键词】web信息提取 HTML 应用所谓信息提取,是指从自然语言文本中提取出特定信息的过程,即,传统的信息提取系统利用自然语言处理技术,使用基于语法或语义限制的提取模式,对自由文本进行处理的过程。
而Web信息提取,是指从web 文档中自动提取感兴趣信息的过程。
它主要通过两种途径实现,一种是通过知识工程途径;另一种是通过机器学习途径。
相对来说,机器学习途径比知识工程途径使用性更强。
1 web信息提取技术的研究的意义传统的信息提取技术起源于80年代末,兴起于90年代,它的蓬勃发展主要得益于消息理解系列会议的召开,并随着web挖掘项目的成立,得到了进一步的发展。
但是目前,Web信息的提取技术中仍然存在检索方式不科学,索引方法不合理,结果显示单一,个性化能力差等一系列问题,有待于相关人员的进一步研究。
另外,Web信息提取技术还具有很强的实用性,是其他应用系统构建的基础。
它不仅仅是web数据挖掘的重要组成部分,还是信息集成首先要解决的关键技术之一,另外,一些新颖的实际应用如,网上比较购物系统、构建企业竞争情报系统等,也离不开web信息抽取技术的支持。
因此,加大web信息提取技术的研究力度,技术是符合信息技术发展趋势的。
Web评论文本的细粒度意见挖掘技术研究共3篇

Web评论文本的细粒度意见挖掘技术研究共3篇Web评论文本的细粒度意见挖掘技术研究1Web评论文本的细粒度意见挖掘技术研究随着互联网的不断发展,网络成为了人们生活中不可缺少的一部分。
人们借助网络进行交流、分享、娱乐等,而互联网上的评论就成为了人们表达意见的重要途径。
然而,在海量的评论信息中,有些评论并不是为了表达看法,而是为了制造舆论或营销,这就给人们的信息获取带来了困扰。
因此,如何挖掘出真正有用的信息成为了研究的热点之一,其中,细粒度意见挖掘技术被广泛应用于评论的分析和提取。
细粒度意见挖掘技术是一种专门用于分析和挖掘文本中情感色彩的技术。
其通过分析文本中的词语、句子、逻辑关系等多种信息来提取出文本的情感极性,并且分析出其中的细节和细微差别。
该技术在社交媒体、在线问答、电商评论等领域受到广泛关注。
在Web评论文本中,用户的意见往往不止是简单的好评或差评,而是带有一定情感色彩的,即存在情感异质性,这就需要细粒度意见挖掘技术来进行分析和挖掘。
例如,在一篇电影评论中,一个人对于一部电影的评价可能是:“我喜欢这部电影,但是这部电影里的角色缺乏深度,剧情不够紧凑。
”这个人并不是完全的好评或差评,而是在感性的层面上表达了对于这部电影的意见。
而对于该评论进行细粒度意见挖掘后,可以得到多个方面的情感极性,如“好评”、“角色缺乏深度(差评)”、“剧情不够紧凑(差评)”等方面。
细粒度意见挖掘技术主要包括三个模块:情感分类模块、方面提取模块和情感分配模块。
其中,情感分类模块用于对文本进行情感分类,即将文本分为正面、负面和中性等情感类别;方面提取模块用于确定文本中具体的方面,如在对于一部电影的评价中,可以提取出“剧情”、“人物”等方面;情感分配模块用于对每个方面进行情感分配,即将文本的情感分配到具体的方面上。
细粒度意见挖掘技术的应用范围广泛。
比如,电影、图书、餐饮等领域,可以通过分析评论挖掘顾客的需求和感受,帮助商家提高产品质量和服务质量;政府、企业等机构可以通过分析社交媒体上的评论,了解公众的关注度和态度,制定相应的政策和企业战略;搜索引擎可以通过细粒度意见挖掘将用户的搜索结果更加准确地定位到用户需求的精准方向上,提升搜索的准确率和用户体验。
主流Web架构相互比较

主流Web架构相互比较2019年3月5日做WEB好几年了,各种语言和技术都稍有涉猎。
今天心血来潮,突然想总结⼀下。
其实不论什么技术,什么需求,通常WEB开发就是通过WEB前端管理⼀个或⼤或⼩或独⽴或分布式的关系型数据库,很多东西都是相通的。
这⾥说的WEB架构,是指WEB应⽤开发中每种技术独有的资源组织形式(包括⽂件,数据库,HTTP请求处理等。
注意并⾮OO的开发⽅式才有架构⼀说),也许说开发⽅式更容易让⼈理解⼀些。
REST架构风格是全新的针对Web应用的开发风格,是当今世界最成功的互联网超媒体分布式系统架构,它使得人们真正理解了Http 协议本来面貌。
随着REST架构成为主流技术,一种全新的互联网网络应用开发的思维方式开始流行。
REST是什么REST是英文Representational State Transfer的缩写,中文翻译为“表述性状态转移”,他是由Roy Thomas Fielding博士在他的论文《Architectural Styles and the Design of Network-based Software Architectures》中提出的一个术语。
REST本身只是为分布式超媒体系统设计的一种架构风格,而不是标准。
基于Web的架构,实际上就是各种规范的集合,这些规范共同组成了Web架构。
比如Http协议,比如客户端服务器模式,这些都是规范。
每当我们在原有规范的基础上增加新的规范,就会形成新的架构。
而REST正是这样一种架构,他结合了一系列的规范,而形成了一种新的基于Web的架构风格。
传统的Web应用大都是B/S架构,它包括了如下一些规范。
客户-服务器这种规范的提出,改善了用户接口跨多个平台的可移植性,并且通过简化服务器组件,改善了系统的可伸缩性。
最为关键的是通过分离用户接口和数据存储这两个关注点,使得不同用户终端享受相同数据成为了可能。
无状态性无状态性是在客户-服务器约束的基础上添加的又一层规范。
Python中的Web数据抓取与分析

Python中的Web数据抓取与分析一、Web数据抓取的背景和意义近年来,随着互联网技术的不断发展和普及,网络数据的规模和复杂性呈现出爆炸式增长。
这些海量的网络数据包含了丰富的信息资源,对于企业决策、市场调研、竞争情报等都具有重要的价值。
然而,要提取和利用这些网络数据并不容易,而Python作为一种广泛应用的脚本语言,在Web数据抓取和分析中发挥了重要作用。
二、Web数据抓取的基础知识在进行Web数据抓取之前,我们需要了解一些基础知识。
首先,我们要了解HTTP协议和HTML标记语言。
HTTP是超文本传输协议的英文缩写,也是Web数据传输的基础协议,它定义了客户端和服务器之间的通信规则。
而HTML是一种标记语言,用于描述网页的结构和内容。
通过了解HTTP和HTML,我们能够理解网络数据是如何传输和展示的。
三、Python中的Web数据抓取库Python提供了许多强大的第三方库来帮助我们进行Web数据抓取。
其中最常用的库包括requests、urllib和BeautifulSoup等。
requests库是HTTP请求库,它简化了HTTP请求的过程,并提供了更加友好的API。
而urllib库则是Python标准库中的一个模块,它提供了一系列的模块和函数来处理URL。
另外,BeautifulSoup库是一个HTML解析库,它可以将HTML文档转化为一个可以操作的树形结构,方便我们提取和分析所需的数据。
四、Web数据抓取的方法和技巧在进行Web数据抓取时,我们常常会遇到一些问题和挑战。
其中一个常见的问题是如何处理登录页面和验证码。
针对这个问题,我们可以使用模拟登录的方式来解决。
具体而言,我们可以使用requests库发送登录请求,并保存登录状态,然后在后续的请求中携带该状态信息。
对于验证码问题,我们可以使用机器学习的方法来自动识别和处理。
另一个常见的问题是如何有效地爬取大规模的数据。
针对这个问题,我们可以使用多线程或者异步IO的方式来提高并发性能,从而加快数据爬取的速度。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
3. 主流观点提取和描述
3.1 概述 本文提出的“主流观点提取和描述方法”的框架 如图 1 所示,该方法主要由三个部分组成。
图1 主流观点提取和描述的框架
2. 相关工作
目前,关于中文 Web 评论聚类工作尚不是很多。 将经典的聚类算法直接应用到中文评论中常常不能 达到好的效果。我们根据中文评论的特点,利用图的 关系,将高度近义的评论先进行聚类,然后再将经典 算法应用在改进的数据中, 从而得到了更有效的聚类 结果[5]。 最近,有很多基于评论的观点挖掘研究,其主要
第 46 卷 增刊 2009 年 10 月
计 算 机 研 究 与 发 展 JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
Vol.46, Suppl. Oct. 2009
输出:描述该观点的关键词,典型评论 第一步:建立句子链接关系图,利用迭代算法计 算句子的排名值 SRank(Si); 第二步 :对句子进行聚类,计算每类句子的 CSRank (Ci); 第三步:建立词语链接关系图,利用迭代算法计 算词语的 WRank(Wi),得到关键词; 第四步:计算每条评论的排名 RRank(Ri),得到 最有代表性的评论。 经过观点描述,不仅得到每个观点的描述,还得 到排名权值 RRank ( Ri ) 。定义该观点的流行程度为 FRank (Oi ) ,那么: FRank (Oi ) RRank ( Ri ) N , (1) 其中 N 为支持该观点的人数。 FRank (Oi ) 说明支持该 观点的人数越多并且该观点的信息量越大, 那么该观 点越流行。从而可以得到主流评论观点。 3.2 Web评论观点鉴别 首先需要对网页进行解析,得到所需要的评论数 据。D. Cai 等人提出的 DOM tree [11],L. Yi 等人提 出的 Site Style Tree [12],以及我们提出的 MM 算法 [13]等,从不同角度给出了较好的解决方案。 中文文本分析不同于英文文本分析,首先需要进 行切词。目前有很多较成熟的切词系统,本文应用中 科院计算技术研究所基于多层隐马模型所开发的汉 语词法分析系统 ICTCLAS[14]。 对评论进行聚类,首先就需要将评论向量化。向 量空间模型(Vector Space Model)VSM,由Salton等 人提出[15,16,17],是文本聚类中最常用的模型。本 文通过计算每个词的TFIDF值,将评论向量化。实验 中发现,使用评论中所有的词会使VSM维度过大,以 致影响聚类结果,所以必须使用降维措施。 为此我们使用了同义词库, 利用同义词关系进行 降维。 例如针对某个受欢迎的商品, 人们会评价 “好” 、 “不错”、“赞”,虽然用词不同,但是表达的是相 同的意思,可以将其合并。其次,出现频率过高的词 往往是评论中不具备代表性的词,比如:“我们”、 “的”、“是”等,我们对这些词进行了过滤。 通过对向量化后的数据进行聚类分析, 可以发现 各种观点。 本文应用我们提出的针对中文评论的聚类 思想[5]。这样就将某一主题下的评论分为若干类, 每一类有着相似的观点。 3.3 观点描述 3.3.1 句子排名的计算 基于假设 1,首先计算句子排名,找到重要的句
言论。如果想对网络言论进行了解和把握,那么就要 及时准确了解网络评论的主流观点; 如果想要网上购 物、计划观看电影或者远足旅行,那么也需要查看相 关的网络评论信息。至于商务活动经营者,他们就更 需要了解顾客或者游客的反馈, 从海量的网络评论中 快速找出主流的评论观点,以便更好地调整经营策 略。所以,如何处理、过滤以及挖掘网络评论,已经 成为一项重要的研究课题。 已有文献对网络评论的情感分析进行了一定的 研究[2, 3, 4], 对于某一主题的评论, 根据语意倾向性 进行观点分类,通常分为正面的、中立的、负面的。 然而对于评论的这些分析过于简单, 用户获得的信息 量较少。 此外, 这些方法往往基于有监督的训练模型, 需要更多的先验训练数据, 而对于瞬息万变的网络话 题,训练数据并不能满足这种要求。 本文提出的主流观点提取方法更好地解决了对 网络评论的概括与描述, 可以准确发现某一主题下评 论的主流观点, 同时选取最有代表性的若干关键词和 典型评论对该观点进行描述, 能够更细致全面反映某 一主题的主流观点。 本文提出的方法不需要任何训练 数据,具有更高的适应性。本文的主流观点提取方法 主要分为三个部分,第一部分实现 Web 评论观点鉴 别,第二部分实现观点描述,第三部分实现观点的排 名。 网络平台的交流方式呈现多元化, 发布于门户网 站、官方网站和论坛的匿名的或者实名的信息,形成 了不同的网络评论数据源。 来自不同数据源的评论可 能呈现不同的特点。 本文利用主流观点提取方法对各 个数据源的评论数据进行对比分析, 找出了不同数据 源自身的特点及之间的差异,并给出了合理的解释, 从而为人们在数据源的选择问题上提供一些有价值 的参考。 文章的第二部分简述相关工作, 第三部分对提出 的主流观点提取和描述方法进行了详细介绍。 第四部 分给出了相应的实验结果, 并对不同数据源的评论特 点进行了对比分析。第五部分对文章进行了总结。
随着互联网普及率的不断提高和大众媒介的网络化,网络媒体逐渐成为使用率最高的网络应用。媒介的互动性和网络的
海量性导致了网络评论的大量出现,使得网络评论主流观点的自动提取以及不同源数据的对比分析格外具有意义。本文针对以 上问题展开研究,主要有两点贡献:第一,提出了一种自动提取网络评论主流观点的方法,该方法克服网络评论的复杂性和海 量性,通过“Web 评论观点鉴别”和“主流观点描述”两个核心部分的处理,自动提取出某一主题下评论的主流观点,并针对 每个主流观点,使用关键词和代表性评论对其进行描述;第二,利用该方法对来自不同数据源的网络评论进行对比分析,给出 了不同数据源的网络评论特点及差异。 关键词 Web 评论;主流观点提取;评论分析 中图法分类号 TP391
Web 评论观点鉴别的首要目标是区分不同的观 点。基本步骤是,首先抓取与某一主题相关的评论数 据,然后进行切词处理,使用 VSM 将评论向量化,最 后对评论进行聚类分析。 观点描述要针对发现的每一观点, 找出最有代表 性的若干关键词和典型评论来描述这一观点。 在这部 分,给出如下三个假设: 假设 1:有代表性的词往往在重要的句子中。 假设 2:有代表性的词往往和其它有代表性的词共同 出现。 假设 3: 句子和词能够根据它们的链接结构计算排名。 基于这三个假设,我们提出了主流观点描述算法,该 算法的总体框架如下(细节见 3.3 节) : 算法 1:关键词和典型评论的提取 输入:某一观点的评论集合
Web Comment Analyzing and Opinion Comparison among Different Sources
Kong Liang, Shi Lei, Sun Bai , and Zhang Yan*
(Department of Machine Intelligence Peking University, Beijing 100871) Abstract With the popularization of the Internet and public media, the network media gradually becomes the most used network application. The interaction of media and the rich content of the Web lead to the explosion of Web comments. This makes the automatic mining of the mainstream opinions on the Web and the characteristics of different data sources particularly significant. The paper has two contributions: Firstly, it puts forward the method on automatic mining of Web mainstream opinions. Our method can automatically dig out the main trend opinions under a certain subject, with two critical processes named “comment classification” and “opinion description”. It even further uses several keywords and one representative remark to describe each mainstream opinion. Secondly, with this method, this paper analyzes and compares the opinion data from different sources. Keywords 摘要 web comment; mainstream opinion extraction; opinion analysis
民使用最多的网络应用。 媒介的互动性和网络的海量 性,创造了吸引受众的、独有的网络评论。网络评论 具有形成速度快、交互性强、高容纳性和随意性,决 定了单纯依靠人力是不可能完成对网络信息的分析。 网络评论推动了信息的传播, 对于社会舆论的形 成有着不可低估的作用。然而网络的虚拟性和隐蔽 性,也使得一些人敢于散布虚假的、不确实的消息和
*通讯作者 收稿日期:2009-06-25 基金项目:国家自然基金项目(60673129、60773162 、60672171)
第 46 卷 增刊 2009 年 10 月
ห้องสมุดไป่ตู้
计 算 机 研 究 与 发 展 JOURNAL OF COMPUTER RESEARCH AND DEVELOPMENT
Vol.46, Suppl. Oct. 2009