大数据技术概论第11章-图计算

合集下载

厦门大学-林子雨-大数据技术原理与应用-上机练习-图计算框架Hama的基础操作实践

厦门大学-林子雨-大数据技术原理与应用-上机练习-图计算框架Hama的基础操作实践

厦门大学林子雨编著《大数据技术原理与应用》教材配套上机练习图计算框架Hama的基础操作实践(版本号:2016年1月18日版本)主讲教师:林子雨厦门大学数据库实验室二零一六年一月(版权所有,请勿用于商业用途)目录目录1作业题目 (1)2作业目的 (1)3作业性质 (1)4作业考核方法 (1)5作业提交日期与方式 (1)6作业准备 (1)6.1、Hama计算框架的安装配置 (1)6.2、用Hama计算模型实现寻找最大独立集问题算法 (3)7作业内容 (9)8实验报告 (9)附录1:任课教师介绍 (9)附录2:课程教材介绍 (10)《大数据技术原理与应用》图计算框架Hama基础操作实践上机练习说明主讲教师:林子雨E-mail: ziyulin@ 个人主页:/linziyu1作业题目图计算框架Hama基础操作实践。

2作业目的旨在让学生了解Pregel图计算模型,并学会用Pregel的开源实现Hama实现一些基本操作。

3作业性质课后作业,必做,作为课堂平时成绩。

4作业考核方法提交上机实验报告,任课老师根据上机实验报告评定成绩。

5作业提交日期与方式图计算章节内容结束后的下一周周六晚上9点之前提交。

6作业准备请阅读厦门大学林子雨编著的大数据专业教材《大数据技术原理与应用》(官网:/post/bigdata/),了解图计算的概念与意义。

6.1、Hama计算框架的安装配置A pache Hama是Google Pregel的开源实现,与Hadoop适合于分布式大数据处理不同,Hama主要用于分布式的矩阵、graph、网络算法的计算。

简单说,Hama是在HDFS 上实现的BSP(Bulk Synchronous Parallel)计算框架,弥补Hadoop在计算能力上的不足。

(1). 安装好合适版本的jdk和hadoop,并且进行测试,保证他们能用。

(2). 下载hama安装文件,从/downloads.html处下载合适的版本,我当时下的是0.6.4版本的。

大数据概论课件PPT下载(85张)完美版

大数据概论课件PPT下载(85张)完美版
•大数据(big data),又称巨量数据集合,是指无法 在可承受的时间范围内用常规软件工具进行捕捉、管 企业内部数据的采集是对企业内部各种文档、视频、音频、邮件、图片等数据格式之间互不兼容的数据采集。
Map:把统计♠数目的任务分配给每个牌友分别计数。
理和处理的数据集合。 (4)背景数据的可视化
知识计算是从大数据中首先获得有价值的知识,并对其进行进一步深入的计算和分析的过程。 1 大数据可视化简介 互联网(社交、搜索、电商)、移动互联网(微博)、
MapReduce由Map和Reduce两部分用户程 序组成,利用框架在计算机集群上根据需求运行 多个程序实例来处理各个子任务,然后再对结果 进行归并输出。
大数据的相关技术
MapReduce
举例: “统计54张扑克牌中有多少张♠?” 最直观的做法:你自己从54张扑克牌中一张一张地检查并数出13张♠。 而MapReduce的做法及步骤如下: 1.给在座的所有牌友(比如4个人)尽可能的平均分配这54张牌; 2.让每个牌友数自己手中的牌有几张是♠,比如老张是3张,老李是5张,老 王是1张,老蒋是4张,然后每个牌友把♠的数目分别汇报给你; 3.你把所有牌友的♠数目加起来,得到最后的结论:一共13张♠。 这个例子告诉我们,MapReduce的两个主要功能是Map和Reduce。 Map:把统计♠数目的任务分配给每个牌友分别计数。 Reduce:每个牌友不需要把♠牌递给你,而是让他们把各自的♠数目告诉 你。
企业内部的经营交易信息主要包括联机交易数据和联机 分析数据,是结构化的、通过关系数据库进行管理和访 问的静态、历史数据。通过这些数据,我们能了解过去 发生了什么。
海量交互数据:
源于Facebook、Twitter、LinkedIn及其他来源的社交 媒体数据构成。它包括了呼叫详细记录CDR、设备和传 感器信息、GPS和地理定位映射数据、通过管理文件传 输Manage File Transfer协议传送的海量图像文件、We b文本和点击流数据、科学信息、电子邮件等等。可以告 诉我们未来会发生什么。

大数据技术原理与应用之图计算简介(PPT 44张)

大数据技术原理与应用之图计算简介(PPT 44张)

《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
9.4.5输入和输出
• 在Pregel计算框架中,图的保存格式多种多样,包括文本文件、关系 数据库或键值数据库等 • 在Pregel中,“从输入文件生成得到图结构”和“执行图计算”这两 个过程是分离的,从而不会限制输入文件的格式 • 对于输出,Pregel也采用了灵活的方式,可以以多种方式进行输出
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
9.1.2图计算通用软件
一次BSP计算过程包括一系列全局超步(所谓的超步就是计算中的一次迭代), 每个超步主要包括三个组件: •局部计算:每个参与的处理器都有自身的计算任务,它们只读取存储在本地内 存中的值,不同处理器的计算任务都是异步并且独立的 •通讯:处理器群相互交换数据,交换的形式是,由一方发起推送(put)和获取 (get)操作 •栅栏同步(Barrier Synchronization):当一个处理器遇到“路障”(或栅栏), 会等到其他所有处理器完成它们的计算步骤;每一次同步也是一个超步的完成 和下一个超步的开始。图9-1是一个超步的垂直结构图
• • • • • 9.4.1 9.4.2 9.4.3 9.4.4 9.4.5 消息传递机制 Combiner Aggregator 拓扑改变 输入和输出
《大数据技术原理与应用》
厦门大学计算机科学系
林子雨
ziyulin@
9.4.1消息传递机制
• 顶点之间的通讯是借助于消息传递机制来实现的,每条消息都包含了 消息值和需要到达的目标顶点ID。用户可以通过Vertex类的模板参数 来设定消息值的数据类型 • 在一个超步S中,一个顶点可以发送任意数量的消息,这些消息将在 下一个超步(S+1)中被其他顶点接收 • 一个顶点V通过与之关联的出射边向外发送消息,并且,消息要到达 的目标顶点并不一定是与顶点V相邻的顶点,一个消息可以连续经过 多条连通的边到达某个与顶点V不相邻的顶点U,U可以从接收的消息 中获取到与其不相邻的顶点V的ID

大数据概论教材

大数据概论教材

大数据分析价值:根据Andrew Pole的大数据模 型,Target连锁制订了全新的广告营销方案,结果 Target的孕期用品销售呈现了爆炸性的增长。 Andrew Pole的大数据分析技术从孕妇这个细分顾 客群开始向其他各种细分客户群推广,从Andrew Pole加入Target的2002年到2010年间,Target的 销售额从440亿期”的乱战, 以“更懂中国、更懂中国用户”迅速发展。 发展:即使在Google没有撤离之前p;未来:错过了移动互联网的入口。用户依旧 很多,通过大数据分析做精准广告投放,依旧在 走Google的路。
大数据的价值所在
美国政府推出了“大数据”战略,媲美与当年克林顿政府时代的信息高速公路计划。奥巴马 希望借助大数据来将美国经济带出泥潭。从基础建设、到IT硬件、软件、网络,最后到数据 。 2010年12月,总统行政办公室下属的科技技术顾问委员会 ,信息技术顾问委员会向奥巴马和国会提交了《规划数据未 来》的专门报告,该报告把数据收集和使用的工作,提到了 战略的高度。“如何收集、保存、维护、管理、分析、共享 正在呈指数级增长的数据是我们必须面对的一个重要挑战。 如何保证这些数据现在、将来的完整性和可用性,我们面临 着很多的问题和挑战。如何使用这些数据,则是另外一个挑 战。。。。应对好这些挑战,将引导我们在科研、医疗、商 业和国家安全方面开创新的成功。” 2012年3月29日,奥巴马政府又进一步推进了其“大数据战 略”。奥巴马的高级顾问、总统科学技术顾问委员会的主席 霍尔德伦代表国防部、能源部等6个联邦政府部门宣布,将 投入2亿多美元立即启动“大数据发展研究计划”Big Data Research and Development Initiative,以推动大数据 的提取、存储、分析、共享和可视化。

大数据技术之大数据概论

大数据技术之大数据概论

大数据技术之大数据概论在当今数字化的时代,大数据已经成为了一个热门的话题。

它不仅改变了我们的生活方式,也对企业的运营和决策产生了深远的影响。

那么,究竟什么是大数据?它又有哪些特点和应用呢?大数据,简单来说,就是指规模极其庞大的数据集合。

这些数据的规模大到传统的数据处理技术和工具无法有效地进行处理和分析。

它不仅仅是数量上的巨大,还包括数据的多样性、高速性和价值性。

先来说说大数据的“大”。

以往,我们可能认为几千条、几万条数据就算是比较多了,但在大数据的概念中,数据的规模常常是以 PB(拍字节)、EB(艾字节)甚至 ZB(泽字节)来计算的。

想象一下,一个PB 的数据量就相当于大约 2 亿部高清电影的大小。

如此海量的数据,如果没有先进的技术和工具,处理起来简直是天方夜谭。

除了规模大,大数据的多样性也是其重要特点之一。

数据的来源多种多样,可能来自社交媒体、传感器、电子商务网站、金融交易记录等等。

而且这些数据的类型也各不相同,有结构化的数据,比如数据库中的表格;也有非结构化的数据,像是文本、图像、音频和视频。

这种多样性使得大数据的处理和分析变得更加复杂,但同时也蕴含着更丰富的信息和价值。

高速性是大数据的另一个关键特征。

在当今的数字化世界中,数据的产生速度非常快。

例如,社交媒体上每秒都有大量的新消息发布,物联网中的传感器也在不断地实时传输数据。

对于这些高速产生的数据,如果不能及时进行处理和分析,就可能错过重要的信息和机会。

然而,大数据的真正价值不在于其规模和速度,而在于从这些海量、多样和高速的数据中挖掘出有意义的信息和知识。

通过对大数据的分析,企业可以更好地了解消费者的需求和行为,从而优化产品和服务;政府可以更有效地制定政策和提供公共服务;医疗机构可以更精准地进行疾病诊断和治疗方案的制定。

以电商行业为例,通过对用户的购买历史、浏览行为、评价等大数据的分析,电商平台可以为用户提供个性化的推荐。

如果你经常购买运动装备,平台可能会给你推荐更多相关的新产品;如果你在浏览某个商品时停留时间较长但最终没有购买,平台可能会推测你对该商品有一定的兴趣但可能存在某些顾虑,然后通过推送相关的优惠信息来促使你下单。

大数据技术之大数据概论

大数据技术之大数据概论

大数据技术之大数据概论大数据技术是指在海量数据的处理、管理、存储和分析方面,使用大规模集群和分布式计算的技术方法。

随着互联网的不断发展和智能设备的广泛应用,大数据产生量呈指数级增长,传统的数据处理方式已经无法满足需求,因此大数据技术应运而生。

1.海量性:传统的数据处理方式无法有效处理海量的数据,而大数据技术可以在短时间内处理海量级的数据,提供更快速、更高效的数据分析和应用。

2.多样性:大数据包括结构化数据、半结构化数据和非结构化数据,如传感器监测数据、社交媒体数据、图像数据等,大数据技术可以处理各种不同类型和格式的数据。

3.实时性:随着物联网的发展,数据产生速度越来越快,实时性要求越来越高。

大数据技术可以在实时或准实时的情况下对数据进行处理和分析。

4.不确定性:大数据中存在着大量的噪声和不确定性,大数据技术可以处理这些不确定性,提取有价值的信息和知识。

1.分布式计算:通过将任务分解为多个子任务,并在分布式的计算机集群上进行计算,实现对大数据的高效处理和分析。

2. 数据存储:大数据处理需要具备高容量、高性能、高可靠性的存储系统,如分布式文件系统(HDFS)和分布式数据库(HBase)等。

3.数据挖掘:通过使用机器学习、统计学和模式识别等技术,从大数据中提取有用的信息和知识。

4.数据可视化:将大数据以图表、图形等形式可视化,便于用户理解和分析数据,通过可视化可以更好地发现数据中的规律和趋势。

5.大数据分析:通过使用大数据技术和分析模型,对数据进行深入挖掘和分析,提供更准确的预测和决策支持。

大数据技术在各个领域都有广泛的应用,如金融、医疗、物流、能源、互联网等。

在金融领域,大数据技术可以帮助银行进行风险评估和信用评级,提高金融服务的效率和质量;在医疗领域,大数据技术可以用于医疗图像的分析和诊断,帮助提供更准确的医疗服务;在能源领域,大数据技术可以帮助优化能源生产和消费,提高能源利用效率。

然而,随着大数据技术的发展,也带来了一系列的挑战和问题。

大数据技术概论


• 基础架构支持:分布式文件系统等(云存储)
数据管理
数据储存
数据分析与挖掘
大数据应用
搜索引擎 推荐引擎 舆情系统 社交网络 知识图谱 ……
大数据与云计算
• 云计算的模式是业务模式,本质是数据处理技术。 • 数据是资产,云为数据资产提供存储、访问和计算。 • 当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘
活数据资产的能力,挖掘价值性信息和预测性分析,为国家、企业、个人提供决策 和服务,是大数据核心议题,也是云计算的最终方向。
机遇
大数据赋予我们洞察未来的能力
鬼城?房屋空置率——电力公司 马云成功预测2008 年经济危机 Mobo的印度危机……
• “2008 年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在 下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推 断出世界贸易发生变化了。”Google QQ、 faceb ook
社交网络
淘宝、 电子商务 ebuy
超级TV
游戏
微信、 微博、 Apps
移动互联
21世纪是数据信息大发展的
时代,移动互联、社交网络、电子商
务等极大拓展了互联网的边界和应用
范围,各种数据正在迅速膨胀并变大。
互联网(社交、搜索、电商)、移 动互联网(微博)、物联网(传感器, 智慧地球)、车联网、GPS、医学影 像、安全监控、金融(银行、股市、 保险)、电信(通话、短信)都在疯 狂产生着数据。
土地使用: 在一个陆地观察数据库中标识那些土地使 用相似的地区;
保险: 对购买了汽车保险的客户,标识那些有较高平 均赔偿成本的客户;
城市规划: 根据类型、价格、地理位置等来划分不同 类型的住宅

大数据技术原理与应用第三版核心知识点

大数据技术原理与应用第三版核心知识点一、大数据概述1. 大数据定义大数据是指规模巨大、种类繁多的数据集合,这些数据量大到传统数据处理工具无法处理。

2. 大数据特点- 五V特点:大数据具有Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)五个特点。

- 非结构化数据:大部分大数据都是非结构化数据,需要通过特定的技术进行处理和分析。

二、大数据技术基础1. 分布式存储- Hadoop分布式文件系统HDFS:将大数据存储在多个节点上,提高了数据的可靠性和并行处理能力。

2. 分布式计算- MapReduce计算模型:将数据分片并行处理,提高了数据处理的速度和效率。

3. 数据清洗和预处理- 数据清洗:去除噪音数据、填补缺失值、处理异常值等。

- 数据预处理:将数据转换成可供分析的格式,如规范化、归一化等。

三、大数据存储技术1. NoSQL数据库- HBase:面向列的分布式数据库,适用于大规模结构化数据存储。

- MongoDB:面向文档的数据库,适用于存储半结构化数据。

2. 大数据文件格式- Parquet、ORC等列式存储格式:适用于大规模数据存储和分析,能够减少I/O操作。

四、大数据处理技术1. 数据挖掘- 聚类分析、分类分析、关联规则挖掘、异常检测等。

2. 机器学习- 逻辑回归、决策树、支持向量机、神经网络等机器学习算法在大数据中的应用。

3. 实时流式处理- Storm、Flink等实时流式处理框架,在大数据实时处理中的应用。

4. 图计算- 图数据库、图计算框架如Neo4j、GraphX等在大数据图计算中的应用。

五、大数据分析与应用1. 数据可视化- Tableau、Power BI等工具的应用,将大数据分析结果直观展现。

2. 业务智能- 利用大数据分析结果进行商业决策和趋势预测。

3. 个性化推荐系统- 利用用户行为数据进行个性化推荐,提升用户体验。

大数据技术概论

大数据技术概论一、什么是大数据技术?1.1 定义大数据技术指的是用于处理和分析大规模数据集的技术和工具集合。

它涉及到数据的收集、存储、处理和分析等多个方面,通过运用各种大数据技术,人们可以从庞大的数据中获取有价值的信息并进行深入的分析。

1.2 大数据技术的重要性大数据技术在当今信息化社会中显得尤为重要。

随着互联网的普及和数字化生活的加速发展,产生的数据量呈现爆发式增长趋势。

传统的数据处理方式已经无法胜任海量数据的处理任务,因此需要借助大数据技术来解决这一难题。

同时,大数据技术也为企业和组织带来了许多新的商机和竞争优势,因此被广泛应用于各个领域。

二、大数据技术的背景和发展历程2.1 大数据的背景大数据的概念最早出现于20世纪90年代,当时被认为是和超级计算机相关的一种技术。

随着互联网技术的飞速发展和社交网络的兴起,大规模数据的产生和积累成为可能,人们开始关注如何利用这些数据创造价值。

于是,大数据技术应运而生。

2.2 大数据技术发展的里程碑1.2003年,Google推出了MapReduce和Google File System(GFS)两个重要的分布式计算和存储框架,为大数据技术的发展奠定了基础。

2.2008年,Hadoop项目成立,成为大数据技术的代表性开源软件,通过其分布式计算框架和分布式文件系统,实现了大规模数据的存储和处理。

3.2009年,Apache Spark项目启动,该项目提供了一个快速、通用的大数据处理引擎,逐渐成为大数据领域的热门工具。

4.2011年,IBM推出了Watson计算机,该计算机通过大数据技术实现了自然语言处理和机器学习等功能,赢得了人类智力竞赛Jeopardy!的冠军。

三、大数据技术的基本原理和核心技术3.1 大数据技术的基本原理大数据技术的基本原理包括数据采集、数据存储、数据处理和数据分析等几个方面。

首先,需要通过各种传感器、物联网设备等方式采集数据;然后,将数据存储到分布式文件系统或者数据库中;接下来,使用分布式计算框架对数据进行处理和分析;最后,通过各种数据挖掘和机器学习算法,从数据中发现有价值的信息。

大数据分析中的图算法与图数据库技术

大数据分析中的图算法与图数据库技术在当今信息爆炸的时代,大数据已经成为各行各业的一个热门话题。

传统的数据存储和处理方法已经无法满足人们对数据快速分析和查找的需求。

因此,图算法和图数据库技术应运而生,为大数据分析提供了更为高效和便捷的解决方案。

一、图算法在大数据分析中的应用图算法是一种用来解决网络关系和图结构数据中问题的数学算法。

在大数据分析中,图算法可以帮助用户揭示数据之间的关联性和模式,从而推测未来的趋势和发展方向。

例如,社交网络分析就是图算法在大数据中的一个重要应用领域。

通过对用户之间的关系网络进行建模和分析,可以帮助企业更好地理解用户的行为和需求,从而调整产品策略和营销方案。

另外,图算法还可以应用于推荐系统和风险管理领域。

通过对用户的行为数据进行建模和分析,可以为用户提供个性化的推荐服务,提高用户体验和满意度。

而在风险管理领域,图算法可以帮助企业分析潜在的风险因素,提前做好风险预警和防范措施,保障企业的稳健经营。

二、图数据库技术在大数据分析中的应用图数据库是一种专门用来存储和查询图结构数据的数据库。

与传统的关系型数据库相比,图数据库更适合存储具有复杂关系的数据,并且能够提供更快速和准确的查询结果。

在大数据分析中,图数据库技术可以帮助用户更好地管理和利用海量图结构数据,发掘数据背后的价值和潜力。

例如,在金融行业,图数据库技术可以帮助银行和证券公司更好地理解客户的资产配置和交易行为,及时发现潜在的欺诈行为和风险因素,从而保护客户的资产和利益。

而在医疗健康领域,图数据库技术可以帮助医疗机构更好地管理和分析患者的病历和诊断信息,提高医疗服务的效率和质量。

三、图算法与图数据库技术的发展趋势随着技术的不断进步和应用领域的不断扩大,图算法和图数据库技术在大数据分析中的应用前景越来越广阔。

未来,这两种技术将更加深入地应用于社交网络分析、推荐系统、风险管理、医疗健康等领域,为用户提供更精准和个性化的数据服务,推动行业的创新和发展。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

完成的,集群环境中执行远程
数据读取会有较高的延迟;
Pregel的消息模式采用异步和 批量的方式传递消息,因此可
Compute()

Compute()
11.1.2 传统图计算解决方案的不足之处
针对大型图(比如社交网络和网络图)的计算问题,可能的解决方案及其不 足之处如下: •(1)为特定的图应用定制相应的分布式实现:通用性不好 •(2)基于现有的分布式计算平台进行图计算:在性能和易用性方面往往无 法达到最优
•现有的并行计算框架像MapReduce还无法满足复杂的关联性计算 •MapReduce作为单输入、两阶段、粗粒度数据并行的分布式计算框架, 在表达多迭代、稀疏结构和细粒度数据时,力不从心 •(3)使用单机的图算法库:比如BGL、LEAD、NetworkX、JDSL、 Standford GraphBase和FGL等,但是,在可以解决的问题的规模方面具有 很大的局限性 •(4)使用已有的并行图计算系统:比如,Parallel BGL和CGM Graph,实 现了很多并行图算法,但是,对大规模分布式系统非常重要的一些方面(比 如容错),无法提供较好的支持
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
11.1.2 传统图计算解决方案的不足之处
很多传统的图计算算法都存在以下几个典型问题: (1)常常表现出比较差的内存访问局部性 (2)针对单个顶点的处理工作过少 (3)计算过程中伴随着并行度的改变
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
11.1.3 图计算通用软件
• 传统的图计算解决方案无法解决大型图的计算问题,因此, 就需要设计能够用来解决这些问题的通用图计算软件
• 针对大型图的计算,目前通用的图计算软件主要包括两种: – 第一种主要是基于遍历算法的、实时的图数据库,如 Neo4j、OrientDB、DEX和 Infinite Graph – 第二种则是以图顶点为中心的、基于消息传递批处理的并 行引擎,如GoldenOrb、Giraph、Pregel和Hama,这些 图处理软件主要是基于BSP模型实现的并行图处理系统
值,不同处理器的计算任务都是异步并且独立的
•通讯:处理器群相互交换数据,交换的形式是,由一方发起推送(put)和获取(get)操作
•栅栏同步(Barrier Synchronization):当一个处理器遇到“路障”(或栅栏),会等到
其他所有处理器完成它们的计算步骤;每一次同步也是一个超步的完成和下一个超步
表示顶点 表示发送消息
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
11.3.2 顶点之间的消息传递
采用消息传递模型主要基于以
消息
下两个原因:
(1)消息传递具有足够的表达
能力,没有必要使用远程读取 或共享内存的方式
Compute()

Compute()

(2)有助于提升系统整体性能。
大型图计算通常是由一个集群
•许多大数据都是以大规模图或网络的形式呈现,如社交网络、 传染病传播途径、交通事故对路网的影响 •许多非图结构的大数据,也常常会被转换为图模型后进行分析 •图数据结构很好地表达了数据之间的关联性 •关联性计算是大数据计算的核心——通过获得数据的关联性, 可以从噪音很多的海量数据中抽取有用的信息
–比如,通过为购物者之间的关系建模,就能很快找到口味相 似的用户,并为之推荐商品 –或者在社交网络中,通过传播关系发现意见领袖
《大数据技术概论》
第11章 图计算
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
提纲
• 11.1图计算简介 • 11.2Pregel简介 • 11.3Pregel图计算模型 • 11.4Pregel的C++ API • 11.5Pregel的体系结构 • 11.6Pregel的应用实例 • 11.7 Pregel和MapReduce实现PageRank算法
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
11.1.3 图计算通用软件
一次BSP(Bulk Synchronous Parallel Computing Model,又称“大同步”模型)计算过
程包括一系列全局超步(所谓的超步就是计算中的一次迭代),每个超步主要包括三
个组件:
•局部计算:每个参与的处理器都有自身的计算任务,它们只读取存储在本地内存中的
顶点
边e1
String类型的顶点ID 可修改的用户自定义值
边上有一个可修改的用户自定义值
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
11.3.1 有向图和顶点
•在每个超步S中,图中的所有顶点都会并行执行相同的用户自定义函数 •每个顶点可以接收前一个超步(S-1)中发送给它的消息,修改其自身及其出射 边的状态,并发送消息给其他顶点,甚至是修改整个图的拓扑结构 •在这种计算模式中,“边”并不是核心对象,在边上面不会运行相应的计算, 只有顶点才会执行用户自定义函数进行相应计算
的对比 • 11.8 Hama的安装和使用
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
11.1 图计算简介
• 11.1.1 图结构数据 • 11.1.2 传统图计算解决方案的不足之处 • 11.1.3 图计算通用软件
《大数据技术概论》
中国科学院大学 中国物联网研究发展中心
11.1.1 图结构数据
中国科学院大学 中国物联网研究发展中心
11.3.1 有向图和顶点
•Pregel计算模型以有向图作为输入 •有向图的每个顶点都有一个String类型的顶点ID •每个顶点都有一个可修改的用户自定义值与之关联 •每条有向边都和其源顶点关联,并记录了其目标顶点ID •边上有一个可修改的用户自定义值与之关联
的开始
处理器
局部计算Biblioteka 《大数据技术概论》通讯 栅栏同步
中国科学院大学
图9-1 一个超步的垂直结构图
中国物联网研究发展中心
11.3 Pregel图计算模型
• 11.3.1 • 11.3.2 • 11.3.3 • 11.3.4
有向图和顶点 顶点之间的消息传递 Pregel的计算过程 实例
《大数据技术概论》
相关文档
最新文档