谷歌云计算架构详解

合集下载

第3章 云计算平台

第3章 云计算平台

阿里云服务平台-1
阿里云服务器(Elastic Compute Service,简称ECS)是一种简单高效、处理能力可弹性伸缩的云计 算服务,能够帮助用户快速构建更稳定、更安全的应用,提升运维效率,降低IT成本,使企业更 专注于核心业务创新。 批量计算服务(Batch Computing Service,简称BatchCompute)是一种适用于大规模并行批处理作 业的分布式云服务。BatchCompute支持并发规模的海量作业,由系统自动完成资源管理、作业调 度和数据加载,并按实际使用量计费。
Google云计算平台核心技术-7 6. Dapper监控系统 Google设计了Dapper监控系统。Dapper能对几乎所有的Google后 台服务器进行监控,并将海量的监控信息记录汇集在一起产生有 效的监控信息。
Dapper监控信息的汇总需要经过以下三个步骤: (1)将区间的数据写入到本地的日志文件。 (2)将所有机器上的本地日志文件汇集在一起。 (3)将汇集后的数据写入到BigTable存储库中。
Amazon云平台-1
Amazon的云计算服务主要包括:弹性计算云服务EC2、简单存储服务S3、 简单数据库服务SimpleDB、简单队列服务SQS、弹性MapReduce服务、内 容推送服务CloudFront、移动服务、安全服务和身份服务等。这些服务涉 及云计算的方方面面,用户可以根据自己的需要选用一个或多个,而且 所有这些服务都是按需获取计算资源,具有极强的可扩展性和灵活性。
专有网络(Virtual Private Cloud,简称VPC)支持用户基于阿里云构建出一个隔离的网络环境,并 对该虚拟网络进行配置,包括选择自有IP地址范围、划分网段、配置路由表及网关等。
弹性伸缩(Auto Scaling,简称AS)是一种根据用户的业务需求和策略,对弹性计算资源进行经济 地自动调整的管理服务。阿里云平台的AS机制能够在业务增长时自动增加ECS实例,并在业务下 降时自动减少ECS实例。

Google云计算平台

Google云计算平台

Google云计算平台[正文]1. 引言Google云计算平台是一个全球领先的云计算服务提供商,为用户提供强大的基础设施和工具,帮助用户在云上构建、部署和管理各种应用程序。

本文档旨在为用户提供关于Google云计算平台的详细信息,包括各种服务、功能和最佳实践等。

2. 云计算基础概述2.1 云计算简介- 什么是云计算- 云计算的优势和特点2.2 Google云计算平台概述- Google云计算平台的核心组件- Google云计算平台的优势和特点3. Google云计算平台服务3.1 计算服务- Google Compute Engine- 虚拟机实例- 镜像- 防火墙规则- Google App Engine- 应用的托管- 自动扩展和负载平衡 - 数据存储和缓存3.2 存储和数据库服务- Google Cloud Storage - 存储桶- 数据管理和访问控制- Google Cloud SQL- 关系型数据库管理系统 - 数据备份和恢复- Google Cloud Datastore - 非关系型数据库- 分布式数据存储3.3 网络服务- Google Cloud Load Balancing- 性能负载均衡- 多区域负载均衡- Google Virtual Private Cloud (VPC) - 虚拟网络的创建和管理- 子网和路由3.4 和机器学习服务- Google Cloud Machine Learning Engine - 模型训练和部署- Google Cloud Vision API- 图像识别和处理- Google Cloud Natural Language API- 文本分析和情感分析4. Google云计算平台最佳实践4.1 安全最佳实践- 访问控制和权限管理- 数据加密和安全传输4.2 性能最佳实践- 资源优化和扩展性- 缓存和负载均衡策略4.3 可靠性和弹性最佳实践- 数据备份和容错性- 自动扩展和容灾5. 附件本文档涉及的附件详细列出在如下文档中,可供用户和查看。

google云计算体系架构

google云计算体系架构

Chubby
25
并行计算基础
摩尔定律正在走向终结…
单芯片容纳晶体管的增加,对制造工艺提出要求 CPU制造18nm技术,电子泄漏问题 CPU主频已达3GHz时代,难以继续提高
散热问题(发热太大,且难以驱散) 功耗太高
未来的发展:多核
26
什么样的问题适合并行计算?
斐波那契序列(Fibonacci) X
<World 1> <China 1> <Si-tech 1>
<World 1> <China 1> <Si-tech 1>
Reduce
<Hello 3> <Bye 3> <World 2> <China 2> <Si-tech 2>
34
MapReduce容错机制
背景
MapReduce设计初衷:由普通PC组成的集群来处理超大规模的 数据,所以有效的错误保障机制是必不可少
在下一章将具体介绍GAE具体的应用
10
Google 云计算SaaS
3. 隶属SaaS的Google云计算
提供在线“Word、Excel、PPT” 提供在线MAP 提供在线日历管理 ……
11
Google如何实现云?
Google云计算平台技术架构
分布式文件系统 Google Distributed File System

并行数据处理 MapReduce

分布式锁 Chubby
第 二
结构化数据表 BigTable
章 详
Google云计算应用
细 介
MapReduce BigTable

gcp计划

gcp计划

gcp计划GCP计划(Google Cloud Platform)是谷歌推出的一项云计算服务,旨在提供可扩展的、高性能的计算、存储与应用解决方案。

作为云计算行业的重要参与者之一,GCP提供一系列的云服务,涵盖了计算、存储、数据库、人工智能、分析等多个领域,为企业和个人用户提供高效、灵活和可靠的计算资源。

GCP计划的核心特点之一是其可扩展性。

通过使用GCP,用户可以根据实际需求快速扩展和减少计算和存储资源,以应对突发的业务需求或流量峰值。

这种灵活性使得用户可以根据需要对基础设施进行调整,从而更好地满足业务增长和变化的需求。

此外,GCP还提供高性能的计算和存储解决方案。

谷歌在全球范围内建立了大量的数据中心,这些数据中心利用谷歌自主研发的技术,为用户提供高可用性和高性能的计算和存储能力。

无论是处理复杂的数据分析任务还是运行高性能应用程序,GCP都能够提供卓越的计算和存储性能,从而帮助用户提高工作效率和业务竞争力。

此外,GCP还提供一系列的数据分析和人工智能服务。

通过利用谷歌在人工智能领域的先进技术和丰富经验,GCP使用户能够轻松实现对大数据的处理、分析和利用。

这些服务包括数据仓库、数据流分析、机器学习和人工智能工具等。

用户可以利用这些工具和服务,从海量的数据中获取有价值的洞见和智能决策,从而提高业务的效果和创新力。

此外,GCP还提供丰富的存储和数据库解决方案。

无论是对于结构化数据还是非结构化数据,用户都可以选择适合自己需求的存储和数据库服务。

GCP提供了各种类型的存储服务,如块存储、文件存储和对象存储,以满足不同类型和规模的数据存储需求。

同时,GCP还提供了多种数据库服务,如关系数据库、NoSQL数据库和数据仓库,为用户提供了高效可靠的数据管理和查询工具。

综上所述,GCP计划是谷歌推出的一项强大的云计算服务,为用户提供了可扩展的、高性能的计算、存储和应用解决方案。

通过利用GCP,用户可以更好地满足业务的增长和变化需求,提高工作效率和业务竞争力。

GOOGLE云计算与AMAZON云计算对比

GOOGLE云计算与AMAZON云计算对比

GOOGLE云计算与AMAZON云计算对比Google云计算与Amazon云计算对比1:介绍1.1 Google云计算概述Google云计算是由谷歌公司提供的一套云计算服务,旨在帮助企业和个人进行应用程序的开发、存储和托管等操作。

Google云计算提供了丰富的计算资源、存储服务以及大数据处理等功能,是全球最大的云计算运营商之一。

1.2 Amazon云计算概述Amazon云计算是由亚马逊公司提供的云计算平台,称为亚马逊云服务(Amazon Web Services,简称AWS)。

AWS提供了一系列云计算服务,包括计算、存储、数据库、和机器学习等,为企业提供了高度可扩展的云计算基础设施。

2:云计算服务对比2.1 计算服务2.1.1 Google云计算的计算服务Google云计算提供了虚拟机实例(Google Compute Engine)和容器化应用程序托管(Google Kubernetes Engine)等计算服务。

虚拟机实例支持多种操作系统,具有灵活、可扩展的计算能力。

而容器化应用程序托管则提供了更轻量级的部署方式,能够更高效地运行应用程序。

2.1.2 Amazon云计算的计算服务Amazon云计算提供了弹性计算云(Amazon Elastic Compute Cloud,简称EC2)和Lambda无服务器计算等计算服务。

EC2提供了灵活的虚拟机实例,用户可以根据需求选择不同类型的实例。

而Lambda无服务器计算则允许用户无需管理服务器即可运行代码。

2.2 存储服务2.2.1 Google云计算的存储服务Google云计算提供了云存储服务(Google Cloud Storage),用户可以将文件以对象的形式存储在云端,提供高可靠性和高可扩展性。

此外,Google云计算还提供了云数据库(Google Cloud Spanner)和云存储桶(Google Cloud Storage Bucket)等。

Google云计算

Google云计算

Google云计算一、云计算的发展云计算(Cloud Computing),2007年第3季度才诞生的新名词,仅过了半年多,其受到关注程度就超过网格计算(Grid Computing),而且关注度至今一直居高不下,如图1所示。

图1 云计算的发展趋势1.云计算的定义云计算是一种商业计算模型。

它将计算任务分布在大量计算机构成的资源池上,使各种应用系统能够根据需要获取计算力、存储空间和信息服务。

2.云计算的特点通过使计算分布在大量的分布式计算机上,而非本地计算机或远程服务器中,企业数据中心的运行将与互联网更相似。

这使得企业能够将资源切换到需要的应用上,根据需求访问计算机和存储系统。

因此云计算具有以下特点:●超大规模●虚拟化●高可靠性●通用性●高可伸缩性●按需服务●极其廉价3.云计算的服务类型云计算可以认为包括以下几个层次的服务:基础设施即服务(IaaS),平台即服务(PaaS)和软件即服务(SaaS)。

a)IaaS:基础设施即服务IaaS(Infrastructure-as-a- Service):基础设施即服务。

消费者通过Internet可以从完善的计算机基础设施获得服务。

2)PaaS:平台即服务PaaS(Platform-as-a- Service):平台即服务。

PaaS实际上是指将软件研发的平台作为一种服务,以SaaS的模式提交给用户。

因此,PaaS也是SaaS模式的一种应用。

但是,PaaS的出现可以加快SaaS的发展,尤其是加快SaaS应用的开发速度。

3)SaaS:软件即服务SaaS(Software-as-a- Service):软件即服务。

它是一种通过Internet 提供软件的模式,用户无需购买软件,而是向提供商租用基于Web的软件,来管理企业经营活动。

4.云计算的发展几年的时间,各个有名的公司都对云计算进行了研发:1)亚马逊公司●研发了弹性计算云EC2(Elastic Computing Cloud)和简单存储服务S3(SimpleStorage Service)为企业提供计算和存储服务●收费的服务项目包括存储空间、带宽、CPU资源以及月租费●诞生不到两年的时间内,Amazon的注册用户就多达44万人,其中包括为数众多的企业级用户2)Google公司●Google搜索引擎建立在分布在30多个站点、超过200万台服务器构成的云计算设施的支撑之上,这些设施的数量正在迅猛增长●Google的一系列成功应用,包括Google地球、地图、Gmail、Docs等也同样使用了这些基础设施●目前,Google已经允许第三方在Google的云计算中通过Google App Engine运行大型并行应用程序●Hadoop模仿了Google的实现机制3)IBM公司●IBM在2007年11月推出了“改变游戏规则”的“蓝云”计算平台,为客户带来即买即用的云计算平台。

云计算实例分析:Google的云计算平台

云计算实例分析:Google的云计算平台

云计算实例分析:Google的云计算平台云计算实例分析:Google的云计算平台1、引言1.1 背景介绍1.2 目的和范围2、Google云计算平台概述2.1 云计算平台定义2.2 Google云计算平台简介2.3 Google云计算平台的特点和优势3、Google云计算平台的基础设施3.1 数据中心网络3.2 存储系统3.3 计算资源管理4、Google云计算平台的服务4.1 云存储服务4.2 云计算服务4.3 数据分析服务4.4 机器学习服务5、Google云计算平台的实例应用5.1 媒体和娱乐行业5.2 零售行业5.3 制造业5.4 医疗健康行业6、Google云计算平台的安全性和隐私保护 6.1 安全架构6.2 数据隐私保护措施6.3 安全审计和合规性7、Google云计算平台的成本和性能评估 7.1 价格模型7.2 性能指标7.3 成本与性能优化建议8、结论附件:附件1:Google云计算平台使用指南附件2:Google云计算平台案例研究法律名词及注释:1、云计算:指通过互联网等方式,将计算资源和服务提供给用户的一种模式。

2、数据中心:指用于存储和处理大规模数据的设施,包含服务器、网络设备等硬件设备。

3、存储系统:指用于存储和管理数据的软硬件系统,通常包括存储设备、存储管理软件等。

4、计算资源管理:指对云计算平台上的计算资源进行分配、调度和管理的一套技术和方法。

5、云存储服务:指提供将数据存储在云端,并能够随时访问和管理的服务。

6、云计算服务:指在云计算平台上提供的各种计算能力,如虚拟机、容器、函数等。

7、数据分析服务:指提供数据分析和挖掘功能的云服务,帮助用户从海量数据中获取有价值的信息。

8、机器学习服务:指提供机器学习算法和模型训练能力的云服务,帮助用户构建和部署智能应用。

9、安全架构:指在云计算平台中采取的一系列安全措施和技术,以保障用户数据和系统的安全性。

10、数据隐私保护措施:指在处理用户数据时采取的安全和隐私保护措施,以确保用户数据不被非法访问和滥用。

云计算平台架构图

云计算平台架构图

云计算平台架构图随着数字化转型的趋势不断加强,企业对云计算平台的需求呈现出爆炸性增长。

云计算平台以其超高的计算、网络和存储能力,成为企业追求高效率、低成本的首选。

而理解云计算平台的架构,可以帮助我们更好地利用这一强大的工具。

一般来说,云计算平台架构可以分为三个主要部分:基础设施层(IaaS)、平台层(PaaS)和软件层(SaaS)。

这三个部分构成了云计算平台的骨架,为企业提供稳定、高效的IT服务。

1、基础设施层(IaaS)基础设施层是云计算平台的最底层,主要提供计算、存储和网络等基础设施服务。

这一层通过虚拟化技术,可以将物理硬件资源转化为虚拟资源,供上层使用。

企业可以根据实际需求,动态地获取所需的计算、存储和网络资源,实现按需使用,灵活扩展。

2、平台层(PaaS)平台层位于基础设施层之上,主要为企业提供应用程序开发和部署所需的平台和工具。

这一层集成了数据库、消息队列、缓存等中间件,为上层应用提供稳定、高效的支持。

企业可以利用这一层提供的工具和平台,快速开发、测试和部署应用程序,大大缩短了开发周期,提高了开发效率。

3、软件层(SaaS)软件层是云计算平台的最高层,主要为企业提供具体的软件应用和服务。

这些软件应用和服务包括但不限于客户关系管理(CRM)、企业资源规划(ERP)、数据分析等。

企业可以通过这一层,以低成本、高效率的方式获取所需的应用和服务,满足自身的业务需求。

以上就是云计算平台的基本架构。

可以看出,云计算平台是一个分层、模块化的结构,各层之间相互独立,互不影响。

这种架构使得企业可以根据自身的需求和特点,灵活地选择所需的服务和资源,实现按需使用,高效利用。

同时,云计算平台的可扩展性也非常强,企业可以根据业务的发展需求,随时增加或减少所需的资源和服务。

这种弹性的架构使得企业能够更好地应对市场变化和业务挑战。

云计算平台的开放性也是其重要特点。

通过开放的标准和接口,企业可以方便地集成第三方应用和服务,构建属于自己的云计算生态系统。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

从整体来看,Google的云计算平台包括了如下的技术层次。

●网络系统:包括外部网络(Exterior Network) ,这个外部网络并不是指运营商自己的骨干网,也是指在Google 云计算服务器中心以外,由Google 自己搭建的由于不同地区/国家,不同应用之间的负载平衡的数据交换网络。

内部网络(Interior Network),连接各个Google自建的数据中心之间的网络系统。

●硬件系统:从层次上来看,包括单个服务器、整合了多服务器机架和存放、连接各个服务器机架的数据中心(IDC)。

●软件系统:包括每个服务器上面的安装的单机的操作系统经过修改过的Redhat Linux。

Google 云计算底层软件系统(文件系统GFS、并行计算处理算法Mapreduce、并行数据库Bigtable,并行锁服务Chubby Lock,云计算消息队列GWQ)●Google 内部使用的软件开发工具Python、Java、C++ 等●Google 自己开发的应用软件Google Search 、Google Email 、Google Earth外部网络系统介绍当一个互联网用户输入的时候,这个URL请求就会发到Google DNS 解析服务器当中去,Google 的DNS 服务器会根据用户自身的IP 地址来判断,这个用户请求是来自哪个国家、哪个地区。

根据不同用户的IP地址信息,解析到不同的Google的数据中心。

进入第一道防火墙,这次防火墙主要是根据不同端口来判断应用,过滤相应的流量。

如果仅仅接受浏览器应用的访问,一般只会开放80 端口http,和443 端口https (通过SSL加密)。

将其他的来自互联网上的非Ipv4 /V6 非80/443 端口的请求都放弃,避免遭受互联网上大量的DOS 攻击。

在大量的web 应用服务器群(Web Server Farm)前,Google使用反向代理(Reverse Proxy)的技术。

反向代理(Reverse Proxy)方式是指以代理服务器来接受internet 上的连接请求,然后将请求转发给内部网络上的服务器,并将从服务器上得到的结果返回给Internet 上请求连接的客户端,此时代理服务器对外就表现为一个服务器。

Google 使用的是Squid Cache的软件方式来实现反向代理应用的,Squid Cache是一个流行的自由软件(GNU 通用公共许可证)的代理服务器和Web 缓存服务器。

Squid 有广泛的用途,从作为网页服务器的前置cache服务器缓存相关请求来提高Web 服务器的速度。

在Google web 应用服务器需要调用Google内部存储的信息和资源的时候,在通过一个防火墙进入内部的网络,来访问其他的基于自身GFS II 系统的应用服务和数据库。

内部网络架构介绍Google 自己已经建设了跨国的光纤网络,连接跨地区、跨国家的高速光纤网络。

内部网络已经都是IPv6 的协议在运行。

网络中的路由交换设备主要还是来自Juniper、Cisco、Foundry、HP这四家公司。

内部网关协议(IRP)是基于OSPF(开放式最短路径优先)进行修改的。

在每个服务器机架内部连接每台服务器之间网络是100M以太网,在服务器机架之间连接的网络是1000M以太网。

在每个服务器机架内,通过IP虚拟服务器(IP Virtual Server)的方式实现传输层负载Linux内核内的平衡,这个就是所谓四层LAN 交换。

IPVS使一个服务器机架中的众多服务成为基于Linux 内核虚拟服务器。

这就像在一堆服务器前安装一个负载均衡的服务器一样。

当TCP/UDP 的请求过来后,使一群服务器可以使用一个单一的IP 地址来对外提供相关的服务支撑。

大规模IDC部署战略Google 应该是目前世界上存储信息最多的企业了。

而且还在一直不断的致力于将传统信息尽可能地数字化。

将这样海量的信息进行存储、进行处理。

就需要大量的计算机服务器。

为了满足不断增长的计算需求。

Google 很早就进行了全球的数据中心的布局。

由于数据中心运行后,面临的几个关键问题的就是充足电力供应、大量服务器运行后的降温排热和足够的网络带宽支持。

所以Google 在进行数据中心布局的时候,就是根据互联网骨干带宽和电力网的核心节点进行部署的,尽快考虑在河边和海边,想办法通过引入自然水流的方式来降低降温排热的成本。

Dalles是美国俄勒冈州北部哥伦比亚河( Columbia River)岸上的一个城市,Google在Dalles 的边上拥有的30英亩土地,他们在这里建立了几乎是世界上最大,性能最好的数据中心。

四个装备有巨大空调设施的仓库内,放置着数万台Internet 服务器,这些服务器每天处理着数十亿条Google网站传递给世界各个角落的用户的数据。

图表 1 Google在Dalles的数据中心这个数据中心占用了附近一个180万千瓦水力发电站的大部分电力输出。

对比来看目前中国长江三峡水电站的额定功率是1820万千瓦。

目前 Google 已经在全球运行了38 个大型的IDC 中心,超过300 多个GFSII 服务器集群,超过80万台计算机。

从服务器集群部署的数量来看美国本地的数量第一,欧洲地区第二,亚洲地区第三,在南美地区和俄罗斯各有一个IDC 数据中心。

在中国的北京和香港,Google也建设了自己的IDC中心,并部署了自己的服务器农场。

其中目前还在进行建设的第38 个IDC 是在奥地利的林茨市(Linz)附近的Kronstorf 村。

未来,Google 还准备在中国台湾地区、马来西亚、立陶宛等地区来进行部署。

从目前的Google 数据中心部署的情况来看,中东和非洲地区目前Google还没有建设计划。

图表 2 Google 的IDC 中心/服务器农场(Google Server Farm)的全球分布图Google 自己设计了创新的集装箱服务器,数据中心以货柜为单位,标准Google模块化集装箱装有30个的机架,1160台服务器,每台服务器的功耗是250KW。

(Google 2009 年公布的信息)。

这种标准的集装箱式的服务器部署和安装策略可以使Google非常快速地部署一个超大型的数据中心。

大大降低了对于机房基建的需求。

图表 3 Google 模块化集装箱的设计示意图。

自己设计的服务器机架架构Google 的服务器机架有两种规格40U/80U的。

这主要是因为原来每个服务器刀片是1U高,新的服务器刀片都是2U高的。

据说Google后期使用的服务器主板是台湾技嘉,服务器主板可以直接插入到服务器机架中。

图表 4 Google 服务器机架及主板自己设计的PC服务器刀片绝大部分企业都会跟诸如戴尔、惠普、IBM 或Sun 购买服务器。

不过Google 所拥有的八十万台服务器都是自己设计打造来的,Google 认为这是公司的核心技术之一。

Google 的硬件设计人员都是直接和芯片厂商和主板厂商协作工作的。

2009年,Google开始大量使用2U高的低成本解决方案。

标准配置是双核双通道CPU,据说有Intel 的,也有AMD 的在使用。

8 个2GB 的DDR3,支持ECC 容错的高速内存,采用RAID 1 的磁盘镜像,来提升I/O 效率。

磁盘采用SATA,单机存储容量可以达到1-2TB。

每个服务器刀片自带12V 的电池来保证在短期没有外部电源的时候可以保持服务器刀片正常运行。

Google 的硬件设计人员认为,这个自带电池的方式,要比传统的使用UPS 的方式效率更高。

一般数据中心多倚赖称为不间断电源系统(UPS)的大型中控机型,这基本上算是大电池,会在主电力失效而发电机还来不及启动时,暂时协助供电。

Google 的硬件设计人员表示,直接把电力内建到服务器比较便宜,而且成本能直接跟服务器数量相符合。

“这种作法比使用大型UPS 节省得多,如此也不会浪费多余的容量。

”效率也是另一个财务考量因素。

大型UPS 可达92-95%的效率,这意味着许多电力还是被浪费掉了。

但Google采用的内建电池作法却好很多,Google相关人员表示,“我们测量的结果是效率超过99.9% 。

图表 5内建电池的服务器刀片操作系统与云计算文件系统GFS/GFSIIGoogle服务器使用的操作系统是基于Redhat Linux2.6 的内核,并做了大量修改。

修改了GNU C 函数库(glibc),远程过程调用(RPC),开发了自己的Ipvs,自己修改了文件系统,形成了自己的GFSII,修改了linux 内核和相关的子系统,使其支持IPV6。

采用了Python 来作为主要的脚本语言。

Google文件系统中最基础的模块是GFSII cell。

任何文件和数据都可以利用这种底层模块。

GFSII 通过基于Linux 分布存储的方式,对于服务器来说,分成了主服务器(Master Servers)和块存储服务器(Chunk Servers),GFS上的块存储服务器上的存储空间以64MB为单位,分成很多的存储块,由主服务器来进行存储内容的调度和分配。

每一份数据都是一式三份的方式,将同样的数据分布存储在不同的服务器集群中,以保证数据的安全性和吞吐的效率提高。

当需要对于文件、数据进行存储的时候,应用程序之间将需求发给主服务器,主服务器根据所管理的块存储服务器的情况,将需要存储的内容进行分配,并将可以存储的消息(使用那些块存储服务器,那些地址空间),由应用程序下面的GFS 接口在对文件和数据直接存储到相应的块存储服务器当中。

图表 6 GFS架构块存储服务器要定时通过心跳信号的方式告知主服务器,目前自己的状况,一旦心跳信号出了问题,主服务器会自动将有问题的块存储服务器的相关内容进行复制。

以保证数据的安全性。

数据被存储时是经过压缩的。

采用的BMDiff 和Zippy 算法。

BMDiff 使用最长公共子序列进行压缩, 压缩100MB/s, 解压缩约1000MB/s.类似的有IBM Hash Suffix Array DeltaCompression.Zippy 是LZW 的改进版本, 压缩比不如LZW, 但是速度更快。

并行计算架构–Mapreduce有了强大的分布式文件系统,Google 遇到的问题就是怎么才能让公司所有的程序员都学会些分布式计算的程序呢?于是,那些Google 工程师们从lisp 和其他函数式编程语言中的映射和化简操作中得到灵感,搞出了Map/Reduce 这一套并行计算的框架。

Map/Reduce被Google 拿来重新了Google Search Engine的整个索引系统。

而Doug Cutting同样用Java 将这一套实现和HDFS 合在一起成为Hadoop 的Core。

相关文档
最新文档