基于数据挖掘的微博人气用户特征分析与研究
微博社交网络中的用户行为分析和推荐算法研究

微博社交网络中的用户行为分析和推荐算法研究一、引言随着互联网的快速发展,社交网络成为了人们日常生活中不可或缺的一部分。
其中,微博作为中国最大的社交媒体平台之一,在用户规模和活跃度方面都拥有巨大优势。
微博社交网络中的用户行为分析和推荐算法研究成为了学术界和工业界关注的焦点问题。
本文将对微博社交网络中的用户行为分析和推荐算法研究进行详细探讨。
二、微博社交网络的用户行为分析1. 用户行为数据收集和处理为了分析用户行为,需要收集和处理大量的微博数据。
首先,可以通过微博的API接口获取用户发布的微博数据、评论数据和点赞数据等。
其次,还可以通过文本挖掘技术提取微博文本中的关键词、情感倾向等信息。
用户行为数据的收集和处理是用户行为分析的基础。
2. 用户行为特征分析微博用户在社交网络中的行为表现非常丰富多样。
可以通过分析用户的关注列表、发布的微博内容、关注和被关注的人群特征等来揭示用户的行为特征。
例如,某些用户经常发布与某一特定领域相关的微博内容,可以认定其为该领域的专家用户。
3. 用户兴趣爱好挖掘用户的兴趣爱好是推荐算法的重要依据。
可以通过分析用户的行为数据,如浏览记录、点赞记录、评论记录等,来挖掘用户的兴趣爱好。
另外,还可以采用协同过滤、社交网络分析等方法,从用户的关注列表、分享行为等来推断用户的兴趣爱好。
三、微博社交网络中的推荐算法研究1. 基于内容的推荐算法基于内容的推荐算法主要通过分析用户的微博内容和关注列表,来推荐与用户兴趣相关的微博。
其中,TF-IDF、词袋模型、主题模型等是常用的文本挖掘方法。
使用这些方法可以对微博进行特征提取,然后基于相似度或者机器学习的方法进行推荐。
2. 基于协同过滤的推荐算法基于协同过滤的推荐算法是通过分析用户的历史行为数据,如浏览记录、点赞记录、关注列表等,找到与该用户行为相似的其他用户或者微博,从而进行推荐。
其中,最常用的方法是基于用户的协同过滤和基于物品的协同过滤。
3. 基于社交网络的推荐算法微博作为一个社交网络平台,用户之间的关系是非常重要的推荐依据。
【原创】数据挖掘课程论文:基于K-means算法的微博用户特征聚类研究附数据代码

知识水平
对课程所讲授的理论知识熟练掌握,正确运用;理论掌握的深入程度
1 23 4 5
论文表述
主题突出,观点明确,论据充分,结构合理,层次清楚,语言通顺,文字简练,无错别字
1 2 3 4 5
结论与创新
结论表述清晰,推导合理,意义明确,有理论或应用上的指导性价值;研究方法有创新,或改进了现有成果(建议在论文中直接提及)
聚类分析[4](Clustering Analysis)应用十分广泛,它是数据挖掘中的一个重要的研究课题,通常用于分析数据并且能够从中发现一些非常有用的信息的一种方法。它广泛地应用于文本搜索、模式识别、人工智能、图像分析等领域。K-means聚类算法是由Steinhaus1955年Lloyd195年Ball&Hall1965年McQueen1967年分别在各自的不同的科学研究领域独立的提出。K-means聚类算法被提出来后,在不同的学科领域被广泛研究和应用并发展出大量不同的改进算法。它是研究比较多且应用比较广泛的一种基于划分的聚类算法。具有算法简单、易于实现、品于扩展,并且能够处理大数据集的特点。它同时也是一种应用广泛的基于启发式的划分方法但是K-Means方法有一些不可避免的缺点自身存在有一定局限性:K-Means聚类算法中K值,需要事先指定,并且对初值比较敏感,不同的初始聚类中心会导致不同的聚类结果,从而导致聚类结果的不稳定,并且容易陷入局部最优而非全局最优的结果等。鉴于K-Means聚类算法的这些缺点,在具体使用过程中,需要对其进行改进。虽然K-means聚类算法被提出已经超过50年了,但目前仍然是应用最广泛的划分聚类算法之一。容易实施、简单、高效、成功的应用案例和经验是其仍然流行的主要原因。本文根据微博用户的加V、简介、粉丝数、粉丝关注比等几个基本特征进行聚类,能够有效地对影响微博转发的用户特征因子进行挖掘,从而能够更好地理解由信息源对微博热度的影响。
基于大数据的微博用户影响力研究

基于大数据的微博用户影响力研究随着互联网的快速发展,人们的生活方式也发生了翻天覆地的变化。
现在,互联网已经成为人们生活中不可缺少的一部分。
人们通过互联网获取信息、交流思想、分享生活,如此之多的信息也导致了信息爆炸。
因此,一个重要的问题就是如何过滤出那些真正有影响力的信息。
微博推出以后,已成为一个广泛受欢迎的传播渠道。
微博上的信息传播往往短暂、迅速,针对不同的用户,其影响力也不同。
因此,大众媒体和学者们开始对基于大数据的微博用户影响力进行深入研究。
一、微博用户影响力的定义及构成微博用户影响力是指微博用户在微博平台上对其他用户所具有的影响力。
其构成因素包括传播质量和传播广度。
传播质量主要包括内容质量、口碑和专业度,传播广度主要包括关注者数量、互动频率等。
因此,一个具有良好传播质量和传播广度的微博用户具有更高的影响力。
二、基于大数据的微博用户影响力研究方法目前,基于大数据的微博用户影响力研究主要采用如下两种方法:1.传播网络分析这种方法主要利用传播网络分析的方法,分析微博内容和传播环境,确定用户影响力与网络关系之间的关联。
同时,这种方法还运用了社会网络分析、整合素材分析、文本挖掘和机器学习等技术,挖掘用户文章的关键词、情感倾向、群体分析等,提高影响力判定的准确度。
2.基于用户行为的分析这种方法主要从用户行为的角度来研究其影响力。
包括关注量分析、分享量分析、评论量分析、点赞量分析和互动频率等。
有些学者还采用百度指数、谷歌指数等方式来分析用户在社交网络的受欢迎程度,进一步为影响力的判定提供支持。
三、现有的微博用户影响力研究成果目前,国内外已经有很多学者对基于大数据的微博用户影响力展开了深入研究,提出了很多有关影响力判定的指标和方法。
其研究成果涵盖传播质量、传播广度等多维度,这里列举几个典型的例子。
1.影响力计算模型罗华谦等学者提出了一种基于用户行为数据的影响力计算模型。
该模型考虑了微博用户传播行为历史数据、平台属性、文章内容等多个要素,系统性地计算出微博用户的影响力得分。
针对微博用户信息的数据挖掘分析

针对微博用户信息的数据挖掘分析数据挖掘什么是数据挖掘?百度百科上定义,数据挖掘是“一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法”。
简单来说,就是通过一定的分析,找出大量的数据中隐藏的一些特殊的相关性或者规律,并由这些规律挖掘出一些事物的特性。
数据挖掘被广泛运用于企业的运营和发展中,企业常常通过对源自客户的大量的数据的分析,以获取客户的特性,由此尽可能应和客户的需求,从而能够在市场上博取更多消费者的青睐,以更具竞争力。
分类分析、聚类分析和关联分析是数据挖掘的三大主要任务。
在本项目中,重点运用到了聚类分析,并辅以关联分析。
聚类分析主要任务是确立某一个对象属性作为标准(如空间坐标、时间等),然后根据数据对象在该属性上的相近程度或密集程度,将数据对象分成不同的簇,使得相比之下在同一个簇中的对象具有很高的相似性,并由此导出规则;而关联分析则是根据对象的属性,得出对象与其他对象之间隐含的关联,并得出规律,以便达到以下目的:给出某一个对象的某一种属性,便可知道该种情况包含了其他哪些对象的哪些属性。
聚类和关联分析在文章接下来会有更加详细的描述异常分析、特异群组分析和演变分析是数据挖掘的另外三大任务,在这里我们不作详细描述。
微博数据分析网络社交平台已经是现代人的生活中不可缺少的一部分,脸书、推特、人人、QQ、微博、微信等等类似的社交平台层出不穷,而这样的社交平台中无疑蕴含着大量的信息。
企业可以分析这些数据,大致提取出用户的特征和生活规律,了解客户的需求,以便更好的利用这个平台,扩展业务,从而获取更大的盈利。
对这些企业来说,这无疑是一个巨大的商机。
本项目的工作“基于空间轨迹和发博特点的微博用户特征数据分析”的主要任务是通过分析微博用户所发过的大量的微博中的时间及空间坐标,来得出用户的工作地/居住地、活动性、消费水平(消费偏好)、职业、亲子状况(孩子年龄)等特征及偏好,并最终提取出上述各种属性的关系,运用关联分析勾画出该用户的立体形象。
基于数据挖掘的微博话题热度预测研究

基于数据挖掘的微博话题热度预测研究随着互联网的日益普及,社交媒体成为人们表达自己观点和感受、分享信息与互动的重要平台。
微博作为国内重要的社交媒体之一,在传递信息和社交娱乐方面发挥了极大的作用。
微博上的话题也成为社交媒体上的重要元素,大量的用户参与互动,产生了海量的交互信息,数据挖掘技术可以从中发现有用的信息和模式,帮助我们更好地理解和应对新媒体时代的社会问题和挑战。
以微博话题热度预测为例,我们可以利用数据挖掘技术从海量的微博数据中抽取有用的信息,预测话题的发展趋势和热度,并对话题的传播和影响进行分析。
话题热度是指话题在一段时间内受到关注、讨论和转发的程度,通常用微博的转发、评论、点赞等指标进行度量。
预测话题热度的任务可以帮助我们及时掌握社会热点和趋势,为舆情分析、商业决策和行政决策等提供参考依据。
数据挖掘技术在微博话题热度预测中的应用主要包括以下几个方面:1. 数据预处理:微博数据具有大量噪声和冗余信息,需要进行数据清洗、过滤和预处理,以提高预测的准确性和可靠性。
常见的数据预处理技术包括文本分词、停用词过滤、特征选择、主题建模等。
2. 特征提取与选择:在进行话题预测时,需要从海量的微博数据中抽取有用的特征信息,例如话题关键词、话题标题、话题描述等。
特征选择是指从所有可能的特征中选择出最具有代表性和预测能力的特征子集,以提高分类模型的效果。
特征提取和选择的方法包括统计分析、自然语言处理、机器学习等。
3. 分类模型建立:在预测话题热度时,可以采用不同的分类模型建立预测模型,比如朴素贝叶斯、决策树、支持向量机等。
分类模型的建立需要根据实际数据情况对模型进行参数调整和优化,以提高预测准确率。
4. 结果评估与优化:评估预测模型的准确性和稳定性是数据挖掘过程中一个重要的环节。
可以采用交叉验证、ROC曲线、预测结果的误差等指标对预测模型进行评估,进一步优化模型参数和算法选择,提高预测结果的质量。
基于数据挖掘的微博话题热度预测已经在多个领域得到了广泛的应用和研究,例如新闻舆情分析、市场营销、政策制定等。
微博用户行为特征分析及预测研究

微博用户行为特征分析及预测研究微博作为中国最早的微型博客,已经成为了人们生活中不可或缺的一部分。
亿万的用户在这个平台上留下了无数的足迹,形成了一个庞大的社群。
然而,这个巨大的社群里面存在了各种各样的现象和行为特征。
本文就将对微博用户的行为特征进行分析,并提出一些预测研究。
一、微博用户的年龄结构首先,我们来看微博用户的年龄结构。
从数据上看,微博用户的年龄结构呈现出明显的年轻化趋势。
在微博上,90后和00后已成为了主体用户。
这些年轻人习惯用这种方式表达自己的生活态度和情感,分享自己的生活和看法,通过微博来与其他人交流互动。
二、微博用户的性别结构其次,我们来看微博用户的性别结构。
对比分析数据可以发现,微博上的女性用户比男性用户更加活跃。
在娱乐、美食、时尚等领域女性用户的影响力尤为显著。
此外,在社会话题的讨论中,女性用户也表现出了更多的关注度和热情。
三、微博用户的行为特征微博用户的行为特征是多样的,下面就对一些典型的行为特征进行简要分析。
1. 转发行为:转发是微博用户最常见的行为之一。
转发可以使用户将有价值的内容分享给自己的粉丝,同时也可以帮助用户自我展示。
许多用户将转发作为与其他用户交流的一种方式,通过转发互动来增加影响力。
2. 点赞行为:点赞在微博上同样也是非常常见的。
用户点赞可以表明对某一内容的认可或者情感上的共鸣,并且可以为被点赞的用户增加一定的曝光度。
同时,一些用户也会将点赞作为与他人交流的一种方式,表达一种良好的社交礼仪。
3. 评论行为:评论是微博中非常重要的一个环节。
用户在评论中可以表达自己对于某一内容的看法和感受,同时也可以通过评论增加自己的曝光度。
评论也可以为其他人提供很多有价值的信息和反馈。
四、微博用户行为的影响因素微博用户的行为是受许多因素影响的,关注这些影响因素可以帮助我们更好地理解微博用户的行为特征。
1. 社交因素:微博是一个社交平台,用户的行为活动与其社交关系是密不可分的。
社交关系在微博上发挥着至关重要的作用,它可以使用户更容易得到他人的关注和交流,并且可以增加用户的网络影响力。
基于机器学习的微博用户影响力分析与预测

基于机器学习的微博用户影响力分析与预测微博作为社交媒体平台之一,拥有海量用户和数据流,对于企业和个人来说,了解微博用户的影响力是相当重要的。
基于机器学习的微博用户影响力分析与预测是一项研究任务,可以帮助我们更好地理解和利用微博用户的影响力。
本文将从数据收集、特征提取、机器学习模型以及预测结果等几个方面进行讨论。
首先,数据收集是影响力分析的基础。
微博用户的影响力受到多个因素的影响,如粉丝数量、转发评论数量等等。
因此,需要收集大量的微博数据,包括用户的个人信息、关注列表、粉丝列表以及其发布的微博内容等。
对于大规模数据的处理和存储,我们可以借助数据挖掘技术和云计算平台来实现高效的数据收集。
其次,特征提取是微博用户影响力分析的关键步骤。
特征提取可以从两个方面进行:用户特征和微博内容特征。
用户特征包括用户的粉丝数量、转发评论数量、发布微博的频率等。
而微博内容特征可以从词频、情感倾向等方面提取,用于判断微博的受欢迎程度和可信度。
此外,还可以考虑使用网络图等图论方法提取用户之间的关系特征,如用户之间的转发关系、评论关系等。
特征提取的关键在于选择合适的特征,使其能够最大程度地反映用户的影响力。
然后,机器学习模型是进行微博用户影响力分析和预测的重要工具。
目前常用的机器学习模型包括逻辑回归、朴素贝叶斯、支持向量机等。
这些模型可以根据已有的用户数据和对应的影响力标签进行训练,学习用户的影响力规律,并预测新用户的影响力。
需要指出的是,选择合适的机器学习模型需要考虑模型的准确性、计算效率以及对大规模数据的适应性等因素。
最后,预测结果是微博用户影响力分析的最终目标。
通过机器学习模型的训练和预测,我们可以得到每个微博用户的影响力分数。
这些分数可以帮助我们判断用户的影响力大小,并根据需要制定相应的营销策略。
预测结果的准确性是衡量影响力分析模型好坏的重要指标,可以通过与实际影响力数据的对比来评估。
综上所述,基于机器学习的微博用户影响力分析与预测是一项具有挑战性和应用价值的任务。
基于数据挖掘的微博用户行为分析研究

基于数据挖掘的微博用户行为分析研究随着互联网的发展,社交媒体已经成为人们日常生活中不可或缺的一部分。
微博作为最早出现的社交媒体之一,具有强大的信息传播和交流功能,吸引了大量用户的关注。
近年来,基于数据挖掘的微博用户行为分析研究越来越受到关注。
一、数据挖掘在微博用户行为分析中的应用数据挖掘是从大量数据中提取对决策有用的信息的过程。
在微博用户行为分析研究中,数据挖掘可以帮助我们了解微博用户的兴趣、观点和行为习惯等,从而更好地满足用户需求,提高用户体验。
首先,数据挖掘可以挖掘用户的兴趣爱好。
通过对微博用户发布的内容进行分类和分析,可以了解用户关注的主题、领域和话题,进而为用户推荐相关的内容和用户,提高用户留存率。
其次,数据挖掘可以挖掘用户观点和态度。
通过文本情感分析和主题挖掘等技术,可以了解用户对特定话题的态度和看法,进而为企业、政府和媒体等提供决策参考。
最后,数据挖掘可以挖掘用户行为习惯和模式。
通过对用户的浏览记录、点赞、评论和分享等数据进行分析,可以了解用户的行为习惯和模式,为企业和广告主提供个性化服务和广告投放建议。
二、微博用户行为分析的方法和技术微博用户行为分析不仅需要运用数据挖掘方法,还需要结合多种技术手段进行研究。
首先,文本分析是微博用户行为分析中常用的方法。
文本分析可以挖掘微博用户发布的文本数据中的信息和规律,包括语言特征、话题和观点等。
文本分析可以采用自然语言处理、文本挖掘和情感分析等技术。
其次,网络分析是微博用户行为分析中能够揭示用户之间关系和互动模式的方法。
网络分析可以通过分析用户之间的关注、粉丝、转发、评论等行为数据,了解用户之间的交流互动模式和社交网络关系。
网络分析可以采用社交网络分析和复杂网络分析等技术。
最后,机器学习是微博用户行为分析中能够通过算法模型自动识别和预测用户行为的方法。
机器学习可以应用于用户画像、用户行为预测和个性化推荐等方面,帮助企业和广告主更好地了解用户需求,提供更好的服务和广告。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于数据挖掘的微博人气用户特征分析与研究摘要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用clementine软件的c5.0决策树模型对这些数据进行分析。
结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。
名人效应非常显著,“非著名话唠”想要引起大家的观注依然困难。
关键词:微博;决策树;用户分析;名人效应
中国分类号:tp39 文献标识码:a
文章编号10053824(2013)01001702
0 引言
微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角色,它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。
针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户群展开分析研究。
目前,新浪微博用户数已超过1亿。
仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的“金蛋”。
那么新浪微博的用户群包括哪些人?他们当中的人气用户都是来自哪些行业?他
们的空间分布又有什么特征?这些人群通过微博主要是为了了解
信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示?
本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层
特征等,找出这些问题的答案。
了解微博在社会中的作用,了解“微博人”的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]。
1 研究设计
1.1 样本来源
研究所需的样本数据利用爬虫工具通过微博站点开放的api获取。
获取的微博人气用户数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。
1.2 研究方法和思路
利用c5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。
c5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。
主要包括2个阶段:1)拆分阶段。
根据能够带来最大信息增益的字段对样本进行拆分,再根据另一个字段进行拆分,直到样本子集不能拆分为止。
2)修剪阶段。
重新检验最低层次的拆分,对模型值没有显著贡献的样本子集进行修剪。
2 实证研究
首先,利用网络爬虫通过新浪微博的api成功从站点上爬取了用户信息数据及关系数据;然后,利用clementine软件的c5.0决策树模型对这些数据进行分析。
2.1 研究结果
微博中的明星用户通过微博发布简单的信息,既能满足粉丝对明星生活的好奇心理,还能为明星自身做宣传,所以娱乐明星占据微博百强用户的大部分,即占到总人数的71%。
而通过对百强用户的空间特征分类研究显示,其中的80%以上分布在北京、台湾和香港三地。
此外,分析结果还显示名人存在一个特征,即关注数小于500,被关注数大于10 000,而微文数却不及被关注数的千分之一。
这说明微博中的名人通过自身的影响力便能吸引大量粉丝关注,而无需关注他人或发布微博,这种现象即为“名人效应”。
2.2 结果分析
从以上细分结果不难发现,虽然微博逐渐平民化和草根化,但是单单从人气用户分析,北京和香港等大城市用户居多,这主要是因为明星名人大多聚集在这些地域,而圈层分析结果显示明星名人在人气用户中占有很大部分,因此名人在微博中的影响力绝对不容忽视。
但是另一个问题出现在我们面前,那就是从其他文献的研究调查中,我们发现微博的用户群分布非常广泛,天南海北,圈层更是涵盖了学生、白领、教师、自由职业等。
其中,微博用户群中,企业的普通员工和学生的比例分别达到29%和17%,为什么我们的人气用户中这些行业的用户基本为0呢?
原因分析:一方面,因为在新浪微博用户中存在着相当数量的“沉默用户”和浏览用户,这些用户的活跃度不高,很少有发布/
转发这种主动的行为,但是更重要的原因并不在此。
众所周知,从2005年9月新浪开通博客频道起,就大张旗鼓地邀请各路名人进行实名注册,于是随着博客在社会上的流行,新浪网的博客频道顿时变得门庭若市,点击率也日攀新高。
在这种形式下,博客变得精英化,脱离草根阶层,成为正式媒体的倾向自然不可避免。
而这一现象也同样延伸到了新浪微博当中,并有越演越烈的趋势。
微博出现时曾有“人人都是记者”美誉,但是它在话语权的转移上却并不如我们所想象的那般乐观。
“非著名话唠”得到的关注依然寥寥无几,声音能被听到并放大的仍然是那些已经在现实生活中积累了名气、财富、社会地位的人,知识沟效应在微博里有越演越烈的趋势。
3 总结与展望
微博尽管出现的时间很短,但是已经证明了他所具有的影响力和扩张力。
微博以全面的功能,以及渗入了多媒体等丰富多彩的元素,使得用户能够更好地发布精彩讯息或是记录心情体验。
通过本文的研究,微博的存在意义以及其对社会文化的启示得到了进一步的阐释。
微博的人气用户调查结果表明,微博中名人效应依然存在并且非常显著,“非著名话唠”想要引起大家的关注依然困难。
展望未来,微博对未来的影响可以用一句话来总结:微博改变世界!微博无论是其传播速度、参与人员的范围都是其他媒体形式望尘莫及的,从某种程度上影响了政府和社会的做法。
但是也正是
因为这个原因,个别别有用心的势力也渐渐混入到微博用户中,伺机煽动挑拨网民们的神经。
微博的这种影响力成为一把双刃剑,如何分辨微博信息的真伪,是微博用户们在今后使用过程中应该思考的问题。
对于微博用户的研究以及微博对现代社会的影响的分析,本文还存在着很多不足。
例如,微博用户各个圈层的调查研究,如何引导微博中正确的舆论方向,如何避免微博被不法分子利用等,这些问题需要后续深入研究和讨论,以使微博在未来给人们、给社会带来更多的启示和意义。
参考文献:
[1] 何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[j].信息系统,2011,34(11):121125.
[2] 平亮,宗利永.基于社会网络中心性分析的微博信息传播研究——以sina微博为例[j].图书情报知识,2010(6):9297.
[3] 王晓光.微博客用户行为特征与关系特征实证分析——以“新浪微博”为例[j].竞争情报,2010,54(14):6670.
[4] 廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[j].清华大学学报:自然科学版,2011,51(10):13001305.
[5] 周立柱,林玲.聚焦爬虫技术研究综述[j].计算机应用,2005,25(9):19651969.
[6] 张彦超,刘云.基于自动生成模板的web信息抽取技术研究[j].北京交通大学学报,2009,33(5): 4045.
[7] 欧健文,董守斌.模板化网页主题信息的提取方法[j].清华
大学学报:自然科学版,2005,45(09):17431747.。