社交网络数据挖掘方法研究

合集下载

社交网络中的数据挖掘及隐私保护研究

社交网络中的数据挖掘及隐私保护研究

社交网络中的数据挖掘及隐私保护研究社交网络是当今世界上最为流行的网络应用之一。

人们常常借助社交网络平台进行交流、分享、娱乐等活动,使得每个人在网络上都能找到自己的社交圈,找到与自己有共同爱好和兴趣的人。

然而,在社交网络中我们不仅可以分享自己的信息,也会不知不觉地暴露自己的一些隐私,这些隐私可能会被一些不法分子所利用。

因此,社交网络中的数据挖掘和隐私保护问题引起了广泛关注。

一、社交网络中的数据挖掘社交网络平台让我们的交际变得更加便捷,方便了我们和他人之间的连接和交流。

然而,在海量的交际和交流信息中,我们可以挖掘出很多有用信息。

数据挖掘技术可以通过对社交网络平台上的各种信息进行深度挖掘,找到潜在的相关性或潜在的影响力。

在社交网络中,我们可以使用数据挖掘技术来做以下事情:1、推荐算法推荐算法是一种基于用户行为和历史数据,对用户进行商品或服务推荐的技术。

在社交网络平台上,通过对用户行为和历史数据的分析,可以向用户推荐朋友、兴趣、产品等。

例如,Facebook会向你推荐“你可能认识的人”,很多网站会向你推荐你可能想要购买的商品等。

2、情感分析情感分析是指通过对文本、音频、图片等信息的分析,发现其中蕴含的情感信息。

在社交网络中,情感分析可以帮助我们分析用户发布的内容是否具有积极的、消极的或中性的情感,了解用户的情感状态和生活方式。

例如,分析用户在社交网络中发表的言论是否积极向上,或者是负面的。

3、社交网络分析社交网络分析是一种通过网络拓扑结构发现不同人群之间的关联、交集、群体动态等知识的技术。

在社交网络中,社交网络分析可以帮助我们了解用户之间的关系、用户群体的特点和行为习惯等信息。

例如,我们可以分析某些人在社交网络中频繁互动,判断他们之间是否存在某种关系,进而发掘他们之间的共同点。

二、社交网络中的隐私保护随着社交网络的发展,越来越多的人使用社交网络平台来与其他人进行互动。

然而,这种便利性是以用户隐私为代价的。

社交网络数据挖掘与分析

社交网络数据挖掘与分析

社交网络数据挖掘与分析一、社交网络数据挖掘概述社交网络数据挖掘是一种从社交网络中提取有用信息的技术过程。

因为社交网络已经成为了很多人生活的一部分,所以社交网络数据挖掘也变得越来越重要。

社交网络数据挖掘可以用于许多领域,例如社交推荐、情感分析、社交媒体营销等。

二、社交网络数据挖掘方法社交网络数据挖掘有许多方法,包括:文本挖掘、网络分析、机器学习等。

下面分别介绍它们的具体内容。

1. 文本挖掘文本挖掘是从文本数据中提取知识的过程。

在社交网络中,文本数据通常是指用户发表的帖子、评论、私信等。

文本挖掘的任务包括情感判断、主题提取、关键字提取等。

以情感判断为例,我们可以通过分析用户发表的评论来判断用户对某个话题的态度是积极的还是消极的。

2. 网络分析网络分析是指分析社交网络中的用户之间的互动关系。

社交网络中的用户可以通过关注、点赞、分享等方式进行互动。

通过网络分析,我们可以了解哪些用户之间交流比较频繁,哪些用户之间交流不太频繁等。

通过对这些数据的分析,我们可以了解用户的兴趣、好友、群组等信息。

3. 机器学习机器学习是指通过训练模型来预测新数据的过程。

在社交网络中,我们可以通过机器学习方法来预测用户的兴趣和行为。

以兴趣预测为例,我们可以通过分析用户的历史行为来预测用户可能感兴趣的话题。

这对于社交推荐来说非常重要。

三、社交网络数据挖掘应用社交网络数据挖掘可以应用于许多领域,下面分别介绍它们的具体内容。

1. 社交推荐社交推荐是指通过挖掘用户在社交网络中的行为数据,提供个性化、精准的推荐服务。

以朋友圈为例,我们可以通过分析用户在朋友圈中发布的内容和与之交互的用户,来向用户推荐他们感兴趣的内容、关注的用户等。

2. 情感分析情感分析是指从文本数据中挖掘出句子或文章的情感(如积极、消极、中立等)。

社交网络中的文本数据非常丰富,通过对用户评论、点赞等行为的分析,我们可以挖掘出用户对某个话题的情感倾向,如用户对某个品牌的态度、对某个事件的反应等。

数据挖掘与社交网络分析

数据挖掘与社交网络分析

数据挖掘与社交网络分析近年来,随着互联网的迅猛发展,大数据时代的到来使得数据挖掘和社交网络分析逐渐成为热门研究领域。

数据挖掘通过从大规模数据集中发现隐藏模式、关联规则和有价值信息的技术来为决策和预测提供支持,而社交网络分析则对社交网络数据进行建模和分析,以揭示个体行为、社团结构和信息传播等方面的特征。

本文将介绍数据挖掘和社交网络分析的基本概念、方法和应用,并探讨它们对于解决现实问题的潜力和挑战。

一、数据挖掘1.1 概述数据挖掘是从数据中自动发现模式、关联规则和有价值信息的过程。

它涉及机器学习、统计学和数据库系统等领域的技术和方法,其目标是通过分析海量数据来提取知识和提供决策支持。

1.2 方法数据挖掘的方法包括聚类、分类、关联规则挖掘和预测等。

聚类是将数据分组成具有相似特征的类别;分类是根据已知的数据样本对新的数据进行分类;关联规则挖掘是找出数据集中的频繁项集和关联规则;而预测则是根据历史数据来进行未来事件的预测。

1.3 应用数据挖掘在各个领域中都有广泛的应用,例如金融领域的信用评估和欺诈检测、医疗领域的疾病诊断和药物研发、市场营销领域的用户行为分析和推荐系统等。

这些应用可以帮助人们更好地理解和利用大数据。

二、社交网络分析2.1 概述社交网络分析是对社交网络中的个体、社团和信息传播等进行分析的过程。

社交网络是由一组个体和它们之间的关系构成的复杂网络,如Facebook和Twitter等社交媒体平台。

社交网络分析旨在揭示个体之间的社会关系、社团结构和信息传播过程等方面的特征。

2.2 方法社交网络分析的方法包括节点度中心性、介数中心性和社团检测等。

节点度中心性衡量个体在网络中的联系数量,介数中心性衡量个体在网络中作为中介的程度,而社团检测则是识别出网络中的社团结构。

2.3 应用社交网络分析在社会学、心理学和计算机科学领域中都有广泛的应用。

例如,社交网络分析可以帮助了解信息传播的机制,推荐好友和产品,预测社交影响力和用户行为等。

社交媒体领域数据挖掘技术在社交网络中的应用

社交媒体领域数据挖掘技术在社交网络中的应用

社交媒体领域数据挖掘技术在社交网络中的应用近年来,随着社交媒体的普及和用户数量的急速增长,社交网络逐渐成为人们沟通交流的重要平台。

然而,这些平台中所产生的庞大数据量却给人们带来了一定的管理和分析困惑。

为了更好地理解和利用这些海量数据,社交媒体领域的数据挖掘技术开始得到广泛应用。

本文将探讨社交媒体领域数据挖掘技术在社交网络中的应用。

一、用户分析社交媒体平台积累了大量用户个人信息和行为数据,通过数据挖掘技术,可以进行用户画像的创建,帮助平台进行优化和个性化推荐。

这些技术可以识别用户的兴趣、喜好、行为模式等,并根据这些信息为用户提供更加精准的服务。

其次,社交网络中用户的社交关系分析也是数据挖掘技术的一个重要应用方向。

通过分析用户之间的互动情况、社交圈子和社交影响力等指标,可以了解用户之间的关系网络,并通过这些数据为用户推荐适合的社交圈子、好友或相关内容。

二、内容挖掘社交媒体平台每天都会产生大量的文本、图片、视频等内容。

通过数据挖掘技术,可以对这些内容进行挖掘和分析,提取出其中的信息和主题。

例如,通过文本挖掘技术,可以自动识别出内容中的情感倾向、关键词和主题等。

这不仅有助于用户更好地了解和筛选社交媒体上的信息,还可以为平台提供更加有效的内容推荐。

三、舆情监测社交媒体平台成为了用户表达观点、分享感受和批评产品的重要场所。

通过数据挖掘技术,可以对社交网络中的舆情进行实时分析和监测。

例如,可以通过情感分析技术,对用户在社交媒体上对产品或事件的态度进行判断,及时发现用户的需求和问题,并进行相应的处理和优化。

四、社交广告社交媒体平台的商业化进程促使了社交广告的兴起。

通过社交媒体的数据挖掘技术,可以对用户的个人信息、行为数据进行分析,实现广告的精准投放。

例如,根据用户的兴趣、地理位置和社交关系等信息,将广告投放给潜在的目标用户,提高广告的效果和转化率。

总结社交媒体领域数据挖掘技术在社交网络中的应用广泛且成效显著。

通过对用户行为、社交关系、内容和舆情等数据的挖掘和分析,可以更好地理解用户需求,优化用户体验,提供个性化的推荐和服务。

数据挖掘在社交网络中的应用分析

数据挖掘在社交网络中的应用分析

数据挖掘在社交网络中的应用分析社交网络已经成为了人们日常生活中不可或缺的一部分,越来越多的人通过社交网络与他人进行沟通交流,分享生活中的点滴。

这些大量的数据给数据分析带来了巨大的挑战和机遇。

数据挖掘技术在社交网络中的应用分析已成为研究热点,可以为社交网络的发展和应用提供有力的帮助。

一、社交网络中的数据挖掘技术社交网络中的数据主要包括用户的个人信息、发布的文本信息、图片和视频等。

数据挖掘在社交网络中的应用需要依赖于大数据技术,包括数据存储、数据预处理、数据分析和数据可视化等。

其中,数据挖掘技术主要包括关联规则挖掘、分类算法、聚类分析、时序分析、异常检测等。

1.关联规则挖掘关联规则是在一组笛卡尔积数据中发现物品间的关联关系,可以用于解释为什么某个事件会发生或某个人会购买某种商品等。

在社交网络中,关联规则挖掘常用于识别某些行为或特征之间的相互依赖性。

例如,挖掘用户的好友之间的关系、用户经常访问的网站等等。

2.分类算法分类算法是将数据集划分为不同类别的方法。

在社交网络中,分类算法应用很广泛,可以应用于用户的性别、年龄、职业、教育程度等多个方面的分类。

例如:用户的爱好细分。

3. 聚类分析聚类分析是将数据按照相似度划分到不同的类别中。

在社交网络中,聚类分析应用广泛,可以将用户分成不同的类别,如活跃用户、沉默用户、高价值用户等等。

还可以将用户的兴趣爱好等信息进行聚类分析,以便于为用户推荐相应的内容或用户。

4. 时序分析时序分析用于监测随时间变化的模式。

在社交网络中,时序分析主要用于研究用户的行为变化和趋势,如某个时间段内用户的访问量和活跃度等等。

5. 异常检测异常检测是识别与一般模型偏离的数据的过程。

在社交网络中,异常检测可以用于识别欺诈用户、识别不适当或有害的内容等。

二、社交网络中的数据挖掘应用案例社交网络中的数据挖掘应用案例主要包括用户行为分析、事件追踪、个性化推荐等等。

下面以微博为例,详细阐述在社交网络中数据挖掘技术的应用。

《社交网络课件:数据挖掘和分析》

《社交网络课件:数据挖掘和分析》

社交网络数据挖掘的发展趋势和前景
更多的结构化数据
社交网络不仅提供文本, 还提供图像、音频、视频 和位置等结构化数据,未 来还会出现更多类型。
AI技术的应用
人工智能技术已被应用于 社交网络数据的处理和分 析,使得数据挖掘和分析 更加智能化。
更精确的预测分析
社交网络数据分析将更加 注重对用户个性化需求和 行为模式的分析和预测, 例如预测股票价格、流行 趋势和疾病传播模式等。
3 挑战和问题
社交网络数据分析面 临的挑战包括隐私保 护、可伸缩性和数据 质量等问题。
社交网络数据挖掘的方法和技术
聚类
将数据分为不同组,使每组内部数据更加 相似,不同组之间的数据差异最大。
分类
对数据进行分类为不同的类别,通过模型 预测每个数据所属的类别。
关联规则
挖掘不同数据之间的关联性和联系。
文本挖掘
社交网络课件:数据挖掘 和分析
社交网络已成为我们日常生活不可分割的一部分。在这份课件中,您将了解 社交网络的概述、数据挖掘和分析的方法和技术、以及常见的应用、挑战和 发展趋势。
什么是社交网络?
1
定义
社交网络是一种结构化的社会关系,以人或组织为节点,由相互之间的联系或交 互关的研究,而且在商业、教育、医疗和政治等领域 也有重要应用。
对社交网络中的文字信息进行挖掘和分析, 包括实体识别、关键词提取和主题建模等。
社交网络数据分析的常见应用
1
市场营销
社交网络数据分析可以帮助企业了
社交媒体监测
2
解潜在客户的需求和特征,提高广 告精准度。
社交网络数据分析可以帮助企业和
政府了解公众对相关话题的看法和
情感倾向,及时回应市场变化。

基于数据挖掘技术的社交网络分析研究

基于数据挖掘技术的社交网络分析研究

基于数据挖掘技术的社交网络分析研究近年来,随着互联网的快速发展,人们在日常生活中越来越离不开社交网络平台。

社交网络作为连接社会群体关系的重要媒介,成为人们沟通、交往和信息传播的主要渠道。

随着社交网络数据的不断积累和扩展,其背后蕴含的巨大数据量也吸引了越来越多的研究人员,基于数据挖掘技术的社交网络分析也成为了当前热门的研究领域之一。

一、数据挖掘技术及其应用数据挖掘是指从大量的数据中提取有用的信息、模式和知识的技术过程,是人工智能、数据库、机器学习等多个领域的共同交叉。

随着互联网的不断普及和发展,数据挖掘技术也逐渐得到了广泛的应用。

在社交网络分析领域中,数据挖掘技术可以用于挖掘社交网络中隐藏的社会关系、社区结构、用户行为等信息,为社交网络的运营和管理提供参考和支持。

二、社交网络分析的概念和应用社交网络分析是指对社交网络的结构和性质进行研究和分析的过程,主要包括网络拓扑结构、社团结构、影响力传播等方面。

近年来,社交网络分析在学术研究、商业分析、政策制定等多个领域得到广泛应用,例如社交媒体舆情分析、社区检测、信息传播路径分析等。

社交网络分析的研究方法主要包括网络图论、社会网络分析、复杂网络分析等多种技术手段,其中,数据挖掘技术是其中重要的手段之一。

三、基于数据挖掘技术的社交网络分析方法1. 社交网络数据采集和预处理社交网络数据的采集和预处理是开展社交网络分析的重要基础工作。

在采集数据时,需要考虑数据源的合理性、数据的粒度和有效性等因素。

对于数据的预处理,需要进行数据清洗、去重、格式转换、特征提取等过程,以保证后续分析和挖掘的有效性和准确性。

2. 社交网络结构分析社交网络结构分析是指对社交网络的网络结构、节点度分布、节点中心性等特征进行分析和挖掘的过程。

通过社交网络结构分析可以揭示社交网络的基本特征和规律,进而为社交网络的优化和管理提供科学依据。

3. 社交网络社区检测社交网络社区检测是指在给定的社交网络中寻找具有相似特征或者功能的节点群体。

基于数据挖掘的社交网络用户行为分析

基于数据挖掘的社交网络用户行为分析

基于数据挖掘的社交网络用户行为分析社交网络成为了如今互联网世界里最为热门的领域之一。

近年来,人们对社交网络的使用频率越来越高,并且越来越大地依赖于它。

随着人们不断在社交网络上产生的海量数据,数据挖掘逐渐成为了对于社交网络进行深度分析的必要手段。

因此,建立一种基于数据挖掘的社交网络用户行为分析方法,对于社交网络的发展和优化有着至关重要的作用。

一、社交网络数据的挖掘方法社交网络中最能体现用户行为的数据元素是用户的交互数据。

在社交网络中,交互数据通常包括用户间的好友关系、用户发布的消息和内容、用户的评论、转发和点赞等。

而在数据挖掘过程中,信息的获取、处理和分析包括以下几个步骤:1.数据收集:为了有效地挖掘社交网络数据,必须收集尽可能多的数据,并将其存储在一个易于管理和访问的位置。

数据收集可以通过爬虫技术、API接口、批量下载等方式来实现。

2.数据清洗:清洗是必不可少的一步,因为社交网络数据中包含了许多冗余的信息、噪声和错误数据,这些数据会对挖掘结果产生影响。

在数据清洗过程中,需要通过过滤、剪切、去重等手段来剔除无用数据。

3.数据预处理:数据预处理是在数据挖掘前对数据进行处理,以便使其更易于挖掘。

通过数据预处理能够有效地减少数据量,提高数据的质量和可用性。

例如,可以通过特征选择、特征提取和特征缩放等方法对数据进行处理,使其符合挖掘算法的要求。

4.数据分析:数据分析是对数据进行问题分析,以确定数据中的关联和模式。

数据分析可以使用各种挖掘算法来实现,并且可以使用各种可视化技术来展示。

5.数据建模:数据建模是在数据分析的基础上构建预测模型。

数据挖掘算法可以帮助建立各种不同类型的模型,包括分类模型、聚类模型和预测模型等。

模型可以进一步用于过程优化、风险评估和决策支持等。

二、基于数据挖掘的社交网络用户行为分析方法基于数据挖掘的社交网络用户行为分析方法实质上是运用机器学习技术对社交网络用户在发一定动态交互数据时所造成的行为进行挖掘。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

社交网络数据挖掘方法研究对于现在的我们来说,网络应该是最熟悉的,它影响着我们生活得方方面面,通过网络进行社交活动也是现在网络的一个巨大的作用,各种各样的社交软件层出不穷,研究社交网络数据也变得越来越重要。

巨大的数据量和复杂的数据形式导致研究社交网络数据挖掘方法存在许多困难。

社交网络数据挖掘的第一步也是基础步骤就是数据分类。

下文中研究的数据类型主要是数值型数据,这就大大减小了数据处理的难度,研究的内容是微博用户信息,通过常用的数据挖掘方法决策树算法,研究微博用户分类的有效的规则,得出用户分类信息。

1.1 研究背景社交网络的发展和壮大使社交网络数据得到越来越多的关注,其价值也是毋庸置疑的,如何能利用这些信息帮助企业发展是目前研究的重点。

与传统的网络形式相比,社交网络具有它独特的性质,首先,对于用户来说,他给用户更多的权限和自主性。

这也就使得社交网络的数据更加的多样和复杂,内容也越来越丰满,社交网络还呈现出更加明显的群体特征,他会将具有相同特质的用户更紧密的来联系在一起。

最最重要的特征是他传播信息的速度,这个速度是及时的,非常迅速,扩散范围特别的广,传统的研究方法与模型应用于社交网络数据时,推广率极低,错误率较高,传播速度低,所以创新数据挖掘方法是研究重点。

在研究社交网络数据时,必须分析选择合适的挖掘方法。

目前,国内流行的社交软件有微博、微信、QQ、知乎等新兴APP,只微博就有腾讯、新浪、搜狐等几家公司,其中新浪微博是目前看来中国最具影响力的微博之一。

新浪微博已经渗透到年轻人生活的点点滴滴之中,影响舆论,改变人们的思想方式,对人们产生的影响是不容小觑的。

在对社交网络数据进行分析时,我们选择了新浪微博软件,因为新浪微博使用群体多,具有典型性,网站的点击量也是最大的,所以,选择微博用户信息进行研究挖掘,分析微博用户的信息数据,能得到更具有代表性和准确性的结论[1]。

1.2研究目的与意义1.2.1研究目的当今时代,是互联网的黄金发展时代,网络伴随着我们生活的点点滴滴,我们工作学习娱乐都会应用到网络。

互联网技术迅猛发展,拉近了人与人之间的距离,使得我们的生活更加的便利。

随着科技的光速发展技术的变革,人们通过互联网进行沟通,互动。

越来越多的网络互动也就产生了越来越多的信息。

社交网络就是由网络社交形成的。

网络社交的最初人们通过电子邮箱,BBS 等进行单一的交流。

之后又出现了即时通讯和博客,这在交流速度和信息量的并发方面有了显著性的提高,这些社交工具更能满足人们对沟通方面的社会需求和心理需求,所以社交网络的发展速度之快也是我们可以预见的。

截至2016年底,中国网民规模已经达到7.31亿,普及率达到53.2%,社交网络的传播影响之大、覆盖用户之广使其必然也就蕴含了巨大的商业价值。

通过对社交网络数据进行挖掘并深入分析,我们可以发现许多潜在的商机,还可以发现对舆论产生危害的信息进行及时的控制和清理。

社交网络现在已经不仅仅是满足人们沟通的工具,也可以在社交网络上得到自己想知道的消息,向其他人分享自己的信息,运营商也可以在社交网络上进行宣传和推广。

网络数据的增长速度非常之快,如果能够从网站上获得这些数据,将会对企业监测消费者的关注重点起到很大的作用,除此之外,社交网络数据的挖掘和分析对商家宣传媒体运营也是作用巨大[2]。

社交网络几乎集中了所有的精力充沛的充满活力的用户群体。

是社交网络问题讨论最集中最广泛的地方,挖掘其中的数据能够得到很多我们想要的信息,为相应的使用者提供分析和决策。

1.2.2 研究意义目前,数据挖掘对于我们来说还是一个新领域新学科,是有关数据和信息系统的应用的涉及到多种学科多个领域共同发展集合的新学科。

通过数据挖掘我们从海量的数据中精确的挖掘数据中隐藏的无法直接获得的有效信息。

在数据库和决策信息领域,数据索引与开发是近年来的热点研究方向。

数据挖掘蕴含着巨大的商业价值,他可以应用于金融业,零售业,通讯业等各行各业。

对于社交网络来说,它本身的由来和发展使它具有三大优势。

第一,用户粘度较高;我们每天上网的时间是非常多的,尤其是现在的年轻人,几乎每天大部分的时间都在上网;第二,维护成本低,随着web2.0时代的到来,网站的运营成本急剧缩减;第三,信息健全,社交网络的登陆和注册会要求填写真实的详细的用户信息,这对于开发者进行数据分析具有极大的商业价值。

后面的内容将对应用于新浪微博等社交软件数据信息的挖掘方法进行阐述。

随着计算机技术的飞速发展,各种社交服务类软件应运而生,国外的社交软件有Facebook, Twitter等,新浪微博使用简单便捷,深受各年龄段和社会阶层喜爱,在社交网络中地位突出。

对新浪微博用户数据的挖掘和分析有利于学术的发展,对社会经济也有重要作用。

微博与Facebook、贴吧等常规可公开发表言论的交流软件相比,用户数量大、信息扩散效率高[3]。

社交网络相比于传统的网络表现出更加复杂多样的综合特征,使得传统的理论与模型很难来准确的描述社交网络中用户的行为特征,因此,如何能高效率的挖掘数据中隐藏信息、研究数据规律,无论是为了扩大个人微博知名度,还是为了树立企业正面形象,首先最重要的事情就是将不同微博用户数据信息进行区分[4]。

1.3研究现状评述1.3.1国外研究现状对于社交网络数据的研究,国外学者接触较早,研究方向更加明确,结论更加完整。

国外将社交网络数据研究与国际最新研究热点相结合,研究理论知识与实际操作。

美国公立机构多个部门开展项目研究,为当前出现的技术难题研究解决办法。

早期为社交网络数据挖掘方法研究奠定了坚实的理论的是宏观分析。

有外国学者曾对早前出现过的社交软件进行过研究,为当前社交网络研究领域提供了依据。

2007 年Jon Kleinberg 提出当前社交网络分析的两大主要问题:一是如何从数据出发推理社会发展进程,二是社交网络分析时的用户隐私安全问题,为社交网络的研究方向开辟出一条新的道路。

由于早前其他学者的深入研究,并取得了一定的成果,使得网络发展迅速并吸引具有先进知识的年轻学者加入研究,越来越多的人也对社交网络未来发展前景了解更加清晰[5]。

随着Facebook、Twitter 等新型社交网络软件的出现,越来越多的学者开始关注社交网络中话题发现的研究。

国外的研究大多数都是以Twitter 为核心,所以针对Twitter的文本话题的发现也就成了国外学者的热门研究方向。

数据挖掘研究方法已经逐渐形成理论体系,并分门别类、模式众多,并且将这些算法应用到实际,虽然这些算法理论上还是会存在一些不足之处,但是对于研究国内的社交网络数据还是具有很强的借鉴意义。

1.3.2国内研究现状由于社交网络的发展越来越壮大,所以国内的关注度也就逐渐地提高了。

社交网络的数据复杂性决定了研究方向的多面性,国内比较流行的研究方向有用户研究,影响力研究,文本挖掘研究标签。

其中,社交网络研究不仅专注高端研究项目,还涉及基本理论研究,以及数据发现、分析、索引等,并进行深入研究[6]。

与其他发达国家相比,我国社交网络数据挖掘方法研究的开展较晚,研究基础薄弱。

目前,国内此领域研究领先的高校和机构已经将数据挖掘作为重点科研项目开展,并不断培养、输送更多高端人才[7]。

1.3.3 国内外研究现状评价由于国内对社交网络挖掘算法的研究还只是刚刚开始,所以还存在着诸多的问题,主要的问题有:(1)数据多样化与非结构性是如今社交网络数据处理方面的重要难题,要在保证信息传播实效与反馈双高的基础上加以解决,超越传统社交网络。

(2)国内关于文本数据预处理的相关算法研究进度缓慢。

现在社交网络文本数据提取几乎都是采用传统的文本特征提取方式、朴素贝叶斯分类、聚类、过滤的方法,针对不停变化的社交网络资源,这些算法有待完善。

(3)数据多、增长快、处理繁琐、耗时长,而且会存在一定的延迟现象,因此,如何提高算法的效率也是当前急需解决的关键问题。

这篇论文将数据与统计挖掘方法结合,发现异同,总结前人经验,创造出更新更好的方法。

为了让数据分析方法更加多样,准确性更高,可合并研究统计学与数据挖掘。

选择合理的方法应用于社交网络数据的研究分析。

1.4研究内容与方法1.4.1 研究内容本文的研究内容主要是先对社交网络数据和数据挖掘的概念进行相应的介绍,然后在数据挖掘的几种常见算法中,选择了聚类算法中的K-均值算法,决策树算法这两种数据挖掘方法相结合放入方式,实证分析了在社交网络数据挖掘中是否实用。

数据挖掘算法多种多样,大体一致但存在细微差别,寻找最优方法,对社交网络用户信息分门别类是本文研究内容的重中之重。

1.4.2 研究方法(1)定性分析法:定性分析了大数据库中社交网络数据挖掘理论意义和现实意义,说明了大数据条件下社交网络数据的重要性。

(2)案例分析法:在提出社交网络数据的新兴挖掘方法举出相应的例子,说明方法的可行性。

(3)归纳总结法:针对社交网络数据挖掘方法的发展现状,提出了社交网络数据挖掘发展中的问题,再结合查阅的资料,系统的提出了针对以上问题的对策。

2社交网络的相关理论我们要研究社交网络数据就要了解他的属性和特点,所以本章主要介绍社交网络的相关理论,包括社交网络的定义,组成元素和主要特点,以及社交网络中数据的特点,数据的类型等。

其中还包含实证分析时研究的新浪微博用户数据的特点。

2.1社交网络的概念社交网络作为新出现的研究内容,理论和实践的概念都不太具体和完善,而且由于他本身变化和发展的速度十分迅速,所以人们也都是在不断地发展中研究发现,文中的概念是现在大多数人认可的理论。

2.1.1社交网络的定义社交,就是人与人之间的交流往来,人们通过某些工具来传递信息,交流思想以达到某种目的社会活动。

社交网络,就是通过网络所提供的服务来帮助我们实现交友互动,拓展用户的社交圈子。

目前,对于社交网络的研究大体上可以分为两大部分,一部分是对网络平台架构的研究,另一部分就是对用户数据的研究。

本文就是对社交网络用户数据的挖掘方法进行研究分析[8]。

社交网络的理论依据最早是由二十世纪六十年代哈佛大学社会心理学教授Stanley Milgram 提出来的六度分隔理论,这个理论揭示了人际关系中的一个基本规律,既你和这个世界上任何一个陌生人中间最多只隔六个人,你只要通过六个人就可以认识一个陌生人,六度分隔理论说明了在社会中普遍存在的“弱纽带”在人际关系中发挥了强大的作用,我们的中间联系人可以强化这种“弱纽带”[9]。

六度分隔理论很好的解释了在社交网络中这种通过好友来认识陌生人的网络社交方式,同时也反应了社交网络中好友关系的本质。

社交网络中的每一个用户是一个链接点,社交网络正是由每一个用户互相关联错综复杂的巨大网络系统。

2.1.2社交网络的组成元素社交网络的特性和现实生活中的社交行为是非常类似的,我们在分析社交网络时可以考虑到现实生活,现实生活中关系的维持靠人情的来往,那社交网络中关系的保持也需要用户之间的交往。

相关文档
最新文档