云计算与大数据技术课后习题

合集下载

云计算与大数据技术-课后习题答案docx (6)[1页]

云计算与大数据技术-课后习题答案docx (6)[1页]

6.11 习题答案
1.启动Hadoop集群可以使用一条命令,也可以使用两条命令,它们分别是什么?
答:使用一条命令:start-all.sh;使用两条命令:start-dfs.sh和start-yarn.sh。

2.Hadoop启动成功之后,使用jps命令,分别回答在master和slave端,至少需要看到那几个服务进程已经启动才表示Hadoop启动正确?
答:master机器上:NameNode、SecondaryNameNode、ResourceManager服务进程;slave机器上:NodeManager、DataNode服务进程。

3.试述ZooKeeper正确启动之后,可以看见的它的守护进程是什么?
答:QuorumPeerMain进程。

4.HBase启动成功之后,分别在master和slave端可见的它的守护进程是什么?
答:在hbase的主节点master机器可见HMaster、HRegionServer进程,在从节点slave上可见HRegionServer进程。

5.试叙述如果需要Hbase正常工作的话,Hbase、ZooKeeper、Hadoop三者的启动先后顺序。

答:先启动Hadoop,再启动ZooKeeper,最后启动ZooKeeper。

在前一个正确的基础上,后一个才可以正确运行。

6.试述在安装Hive之前,必须在Linux服务上事先安装什么数据库软件?
答:安装mysql数据库软件。

7.试述在安装Kafka之前,需要在Linux环境下,必须事先安装好什么软件或服务?
答:Kafka工作的时候需要jdk和zookeeper服务,所以必须事先安装。

云计算与大数据技术考核试卷

云计算与大数据技术考核试卷
1.请简述云计算的基本概念、服务模型及其主要优势。
2.大数据技术中,如何理解“数据挖掘”这一概念?请列举三种常用的数据挖掘技术,并简要说明它们的应用场景。
3.请阐述Hadoop的核心组件及其作用,并分析Hadoop在处理大数据方面的优势。
4.结合实际案例,说明大数据技术如何在金融、医疗、电商等其中一个行业中的应用,以及它所带来的价值。
5.大数据分析中,K-means算法属于______类型的算法。
6.云计算的服务部署模型包括公共云、私有云、混合云和______云。
7.下列哪种技术常用于大数据的实时流数据处理:______。
8.在大数据分析中,数据可视化是帮助用户理解数据的重要手段,常用的数据可视化工具包括Tableau、Power BI和______。
标准答案
一、单项选择题
1. D
2. C
3. C
4. C
5. D
6. D
7. D
8. B
9. C
10. D
11. D
12. D
13. C
14. D
15. C
16. D
17. D
18. D
19. D
20. D
二、多选题
1. ACDE
2. AB
3. ABCD
4. ABC
5. ABCD
6. ABCD
7. ABC
3.在云计算中,PaaS层为用户提供的是平台化的服务,用户无需关心底层的硬件和操作系统。()
4. Spark比Hadoop快的原因之一是Spark使用内存计算,而Hadoop完全依赖于磁盘I/O。()
5.云计算中的多租户技术是指多个用户共享同一物理硬件资源,但彼此之间的数据和计算是隔离的。()

大大数据技术原理与指导应用 林子雨版 课后习题问题详解

大大数据技术原理与指导应用 林子雨版 课后习题问题详解

第一章1.试述信息技术发展史上的3次信息化浪潮及具体容。

2.试述数据产生方式经历的几个阶段答:运营式系统阶段,用户原创容阶段,感知式系统阶段。

3.试述大数据的4个基本特征答:数据量大、数据类型繁多、处理速度快和价值密度低。

4.试述大数据时代的“数据爆炸”的特性答:大数据时代的“数据爆炸”的特性是,人类社会产生的数据一致都以每年50%的速度增长,也就是说,每两年增加一倍。

5.数据研究经历了哪4个阶段?答:人类自古以来在科学研究上先后历经了实验、理论、计算、和数据四种式。

6.试述大数据对思维方式的重要影响答:大数据时代对思维方式的重要影响是三种思维的转变:全样而非抽样,效率而非精确,相关而非因果。

7.大数据决策与传统的基于数据仓库的决策有什么区别答:数据仓库具备批量和周期性的数据加载以及数据变化的实时探测、传播和加载能力,能结合历史数据和实时数据实现查询分析和自动规则触发,从而提供对战略决策和战术决策。

大数据决策可以面向类型繁多的、非结构化的海量数据进行决策分析。

8.举例说明大数据的基本应用答:9.举例说明大数据的关键技术答:批处理计算,流计算,图计算,查询分析计算10.大数据产业包含哪些关键技术。

答:IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层、数据应用层。

11.定义并解释以下术语:云计算、物联网答:云计算:云计算就是实现了通过网络提供可伸缩的、廉价的分布式计算机能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人类和物等通过新的方式连在一起,形成人与物、物与物相连,实现信息化和远程管理控制。

12.详细阐述大数据、云计算和物联网三者之间的区别与联系。

第二章1.试述hadoop和谷歌的mapreduce、gfs等技术之间的关系答:Hadoop的核心是分布式文件系统HDFS和MapReduce,HDFS是谷歌文件系统GFS的开源实现,MapReduces是针对谷歌MapReduce的开源实现。

大数据应用技术 练习题

大数据应用技术 练习题

1、(单选,4分)大数据起源于()A、金融B、电信C、互联网D、医疗答案:C※:大数据应用技术专题(练习)2、(单选,4分)第一个提出大数据概念的公司是()A、微软B、谷歌C、麦肯锡D、亚马逊答案:C※:大数据应用技术专题(练习)3、(单选,4分)()规模巨大且复杂,用现有的数据处理工具难以获取、整理、管理以及处理。

A、贫数据B、大数据C、富数据D、繁数据答案:B※:大数据应用技术专题(练习)4、(单选,4分)大数据的本质是()A、数据收集B、数据挖掘C、数据关联D、洞察价值答案:D※:大数据应用技术专题(练习)5、(单选,4分)大数据的最显著特征()A、数据规模大B、数据类型多C、数据处理速度快D、数据价值密度高答案:A※:大数据应用技术专题(练习)6、(单选,4分)海军人员通过对前人航海日志的分析,绘制了新的航海路线图,标明大风与洋流可能发生的地点。

这一操作体现大数据思维中的()A、在数据基础上倾向与全体数据而不是抽样数据B、在数据规模上强调相对数据而不是绝对数据C、在分析效果上更讲究效率而不是绝对精确D、在分析方法上更注重相关分析而不是因果分析答案:D7、(单选,4分)下列对大数据特点的说法中,错误的是()A、数据规模大B、数据价值密度高C、数据类型多样D、数据处理速度快答案:B※:大数据应用技术专题(练习)8、(单选,4分)当前社会中,最为突出的大数据环境是()A、互联网B、物联网C、综合国力D、自然资源答案:A※:大数据应用技术专题(练习)9、(单选,4分)下列关于大数据中计算机存储容量单位的说法中,错误的是()A、1KB<1MB<1TBB、基本单位是字节(Byte)C、一个汉字需要2个字节的存储空间D、容纳一个英文字符需要2个字节答案:D※:大数据应用技术专题(练习)10、(单选,4分)计算机存储容量单位换算中,错误的是()A、1KB=1024ByteB、1MB=1024KBC、1TB=1024MBD、1PB=1024TB答案:C※:大数据应用技术专题(练习)11、(单选,4分)大数据时代,数据使用的关键是()A、数据收集B、数据存储C、数据分析D、数据再利用答案:D※:大数据应用技术专题(练习)12、(单选,4分)下列论据中,能够支撑“大数据无所不能”的观点是()A、“互联网+医疗”打破传通的观念和行为B、大数据存在泡沫C、大数据具有非常高的成本D、个人隐私泄露与信息安全担忧答案:A※:大数据应用技术专题(练习)13、(单选,4分)13.支撑大数据业务的基础是()A、数据应用B、数据科学C、数据人才D、数据硬件答案:A※:大数据应用技术专题(练习)14、(单选,4分)下列关于数据生命周期管理的核心认识中,错误的是()A、数据产生被删除销毁过程中,具有多个不同的数据存储阶段B、在不同的数据存在阶段,数据的价值是不同的C、根据数据的价值的不同应该对数据采取不同的管理策略D、数据生命周期管理最终关注的是社会效益答案:D※:大数据应用技术专题(练习)15、(单选,4分)15.当前大数据技术的基础是由()首先提出的A、微软B、百度C、谷歌D、亚马逊答案:C※:大数据应用技术专题(练习)16、(单选,4分)大数据处理流程不包括()A、数据采集B、数据导入和预处理C、数据挖掘与分析D、数据业务统计答案:D※:大数据应用技术专题(练习)17、(单选,4分)17.数据清洗清洗的方法不包括()A、缺失值处理B、噪声数据清除C、一致性检查D、重复数据记录处理答案:D※:大数据应用技术专题(练习)18、(单选,4分)数据仓库的最终目的是()A、收集业务需求B、建立数据仓库逻辑模型C、开发数据仓库的应用分析D、为用户和业务部门提供决策支持答案:D※:大数据应用技术专题(练习)19、(单选,4分)当前大数据技术的基础不包括()A、分布式文件系统B、分布式并行计算C、关系型数据库D、分布式数据库答案:C※:大数据应用技术专题(练习)20、(单选,4分)云计算使用信息的存储是一个()的方式,它会大大地节约网络成本。

大数据与云计算综合练习含答案

大数据与云计算综合练习含答案

大数据与云计算综合练习含答案1.下列关于大数据(Big data)特点的叙述,错误的是( ).[单选题] *A:数据体量巨大B:数据类型繁多C:商业价值高D:处理速度慢(正确答案)2.当前大数据技术的基础是由( )首先提出的.[单选题] *A:微软B:百度C:谷歌(正确答案)D:阿里巴巴3.大数据的起源是( ).[单选题] *A:金融B:电信C:互联网(正确答案)D:公共管理4.大数据的最显著特征是( ).[单选题] *A:数据规模大(正确答案)B:数据类型多样C:数据处理速度快D:数据价值密度高5.美国海军军官莫里通过对前人航海日志的分析,绘制了新的航海路线图,标明了大风与洋流可能发生的地点.这体现了大数据分析理念中的( ).[单选题] *A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析(正确答案)C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据6.当前社会中,最为突出的大数据环境是( ).[单选题] *A:自然资源B:综合国力C:物联网D:互联网(正确答案)7.大数据时代,数据使用的关键是( ).[单选题] *A:数据收集B:数据存储C:数据分析D:数据再利用(正确答案)8.下列论据中,能够支撑"大数据无所不能"的观点的是( ).[单选题] *A:互联网金融打破了传统的观念和行为(正确答案)B:大数据存在泡沫C:大数据具有非常高的成本D:个人隐私泄露与信息安全担忧9.支撑大数据业务的基础是( ).[单选题] *A:数据科学B:数据应用(正确答案)C:数据硬件D:数据人才10.大数据的核心就是( ).[单选题] *A:告知与许可B:预测(正确答案)C:匿名化D:规模化11.大数据不是要教机器像人一样思考.相反,它是( ).[单选题] *A:把数学算法运用到海量的数据上来预测事情发生的可能性(正确答案)B:被视为人工智能的一部分C:被视为一种机器学习D:预测与惩罚12.大数据是指不用随机分析法这样的捷径,而采用( )的方法 .[单选题] *A:所有数据(正确答案)B:绝大部分数据C:适量数据D:少量数据13.相比依赖于小数据和精确性的时代,大数据因为更强调数据的( ),帮助我们进一步接近事实的真相.[单选题] *A:安全性B:完整性C:混杂性D:完整性和混杂性(正确答案)14.大数据的发展,使信息技术变革的重点从关注技术转向关注( ).[单选题] *A:信息(正确答案)B:数字C:文字D:方位15.大数据时代,我们是要让数据自己"发声",没必要知道为什么,只需要知道( ).[单选题] *A:原因B:是什么(正确答案)C:关联物D:预测的关键16.下列关于大数据的分析理念的说法中,错误的是( ).[单选题] *A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据(正确答案)17.下列说法正确的是( ).[单选题] *A:有价值的数据是附属于企业经营核心业务的一部分数据B:数据挖掘它的主要价值后就没有必要再进行分析了C:所有数据都是有价值的(正确答案)D:在大数据时代,收集、存储和分析数据非常简单18.关于数据创新,下列说法正确的是( ).[单选题] *A:多个数据集的总和价值等于单个数据集价值相加B:由于数据的再利用,数据应该永久保存下去C:相同数据多次用于相同或类似用途,其有效性会降低D:数据只有开放价值才能得到真正释放(正确答案)19.关于数据估值,下列说法错误的是( ).[单选题] *A:随着数据价值被重视,公司所持有和使用的数据也渐渐纳入了无形资产的范畴B:无论是向公众开放还是将其锁在公司的保险库中,数据都是有价值的(正确答案) C:数据的价值可以通过授权的第三方使用来实现D:目前可以通过数据估值模型来准确的评估数据的价值评估20.在大数据时代,下列说法正确的是( ).[单选题] *A:收集数据很简单B:数据是最核心的部分(正确答案)C:对数据的分析技术和技能是最重要的D:数据非常重要,一定要很好的保护起来,防止泄露21.在大数据时代,我们需要设立一个不一样的隐私保护模式,这个模式应该更着重于( )为其行为承担责任.[单选题] *A:数据使用者(正确答案)B:数据提供者C:个人许可D:数据分析者22.对大数据使用进行正规评测及正确引导,可以为数据使用者带来什么切实的好处( ).[单选题] *A:他们无须再取得个人的明确同意,就可以对个人数据进行二次利用(正确答案) B:数据使用者不需要为敷衍了事的评测和不达标准的保护措施承担法律责任C:数据使用者的责任不需要强制力规范就能确保履行到位D:所有项目,管理者必须设立规章,规定数据使用者应如何评估风险、如何规避或减轻潜在伤害23.下列论据中,体现"冷眼"看大数据的观点的是( ).[单选题] *A:互联网金融打破了传统的观念和行为B:大数据医疗正在走进平民百姓C:数据资产型企业前景光明D:个人隐私泄露与信息安全担忧(正确答案)24.大数据环境下的隐私担忧,主要表现为( ).[单选题] *A:个人信息的被识别与暴露(正确答案)B:用户画像的生成C:恶意广告的推送D:病毒入侵25.对线下零售而言,做好大数据分析应用的前提是( ).[单选题] *A:增加统计种类B:扩大营业面积C:增加数据来源(正确答案)D:开展优惠促销26.一切皆可连,任何数据之间逻辑上都有可能存在联系,这体现了大数据思维维度中的( ).[单选题] *A:定量思维B:相关思维(正确答案)C:因果思维D:实验思维27.一切皆可试,大数据分析的效果好坏,可以通过模拟仿真或者实际运行来验证,这体现了大数据思维维度中的( ).[单选题] *A:定量思维B:相关思维C:因果思维D:实验思维(正确答案)28.下列企业中,最有可能成为典型的数据资产动营商的是( ).[单选题] *A:物联网企业B:互联网企业C:云计算企业D:电信运营商(正确答案)29.大数据处理中的数据分析根据不同层次大致可分为3类:计算架构、( )以及数据分析和处理.[单选题] *A:支撑技术B:数据解释C:查询与索引(正确答案)D:数据的收集管理30.大数据的4V特点,不包括( ).[单选题] *A:大量(Volume)B:高速(Velocity)C:多样(Variety)D:可视化(Visualization)(正确答案)31.大数据的处理不包含下列( ).[单选题] *A:采集B:导入/预处理C:统计/分析D:查询(正确答案)32.大数据分析相比于传统的( )仓库应用,具有数据量大、查询分析复杂等特点.[单选题] *A:小型B:大型C:数据(正确答案)D:计算33.网上购物过程中,经常会看到"看了此商品的会员通常还看了…"、"买了此商品的会员通常还买了…".这些信息既方便了顾客购物选择,又为商家赢得了更多的利润.这里采用的技术是( ).[单选题] *A:联机分析处理B:智能代理C:智能机器人D:数据挖掘(正确答案)34.基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源.这种新的计算机应用领域称为( ).[单选题] *A:嵌入式技术B:云计算(正确答案)C:虚拟现实技术D:物联网技术35.云计算是对( )技术的发展与运用.[单选题] *A:并行计算B:网格计算C:分布式计算D:三个选项都是(正确答案)36.云计算通过共享( )的方法将巨大的系统池连接在一起.[单选题] *A:CPUB:软件C:基础资源(正确答案)D:处理能力37.云计算中,提供资源的网络被称为( ).[单选题] *A:母体B:导线C:数据池D:云(正确答案)38.通过分布处理和并行处理的方式,将计算资源放置在网络中,供多个终端设备共同来分享使用的技术是( ).[单选题] *A:多媒体技术B:云安全技术C:物联网技术D:云计算技术(正确答案)39.下列关于云计算技术的叙述,错误的是( ).[单选题] *A:可以轻松实现不同设备间的数据和应用共享B:云计算是一种分布式计算C:提供了较为可靠安全的数据存储中心D:对用户端的设备要求较高(正确答案)40.移动云计算是云计算技术在移动网络中的应用,下列不是移动云计算优势的是( ).[单选题] *A:便捷的数据存取B:降低管理成本C:限制资源的访问(正确答案)D:突破终端硬件限制41.云计算将存在于互联网上的( )集群上的硬件资源和软件资源池连接在一起,以服务的方式提供计算资源,形成了一种动态可伸缩、虚拟化的新型计算资源组织、分配和使用模式.[单选题] *A:存储器B:网络设备C:服务器(正确答案)D:无线设备42.云计算的特点有通用性、按需服务、成本低廉、超大规模及( ).[单选题] *A:基于互联网B:高可扩展性(正确答案)C:计算速度快D:存储速度快43.一般认为云计算不包括以下( )层次的服务.[单选题] *A:基础设施即服务(IaaS)B:平台即服务(PaaS)C:软件即服务(SaaS)D:硬件即服务(HaaS)(正确答案)44."云"使用了数据多副本容错、计算节点同构可互换等措施来保障服务的( ),使用云计算比使用本地计算机更加可靠.[单选题] *A:高可靠性(正确答案)B:通用性C:超大规模D:虚拟性45.云计算技术在( )中的应用,体现在搜索引擎、网络信箱、Google的Applications 等.[单选题] *A:虚拟现实B:嵌入式技术C:网络服务(正确答案)D:通信技术46.按照云计算服务类型进行划分,以下不是其分类的是( ).[单选题] *A:基础设施即服务(IaaS)B:平台即服务(PaaS)C:软件即服务(SaaS)D:网络服务(正确答案)47.云计算是一种基于互联网的计算方式,以下不属于云计算特征的是( ).[单选题] * A:多人共享资源池B:随需应变自助服务C:借助自然界的云为载体的计算(正确答案)D:基于虚拟化技术获得服务48.云计算通常通过( )来提供动态易扩展且经常是虚拟化的资源.[单选题] *A:局域网B:互联网(正确答案)C:服务器D:软件49.大数据与云计算的关系( ).[单选题] *A:密不可分(正确答案)B:毫无关系C:不一定D:以上都不对50.云计算服务除了提供计算服务外,还必然提供了( )服务.[单选题] *A:存储(正确答案)B:分布C:打包D:运算。

云计算与大数据技术课后习题

云计算与大数据技术课后习题

第一章云计算与大数据基础1.在信息产业的发展历程中。

硬件驱动力,网络驱动力,作为两个重要的内在动力在不同的时期起着重要的作用6.MapReduce思想来源LISP语言7。

按照资源封装层次,云计算分为 Iaas paas saas三种8。

教材P2 1。

1.210。

教材P8 1。

2。

211. 教材P10 1.2.3第二章云计算与大数据相关技术1。

一致性hash算法原理:哈希算法是一种从稀疏值到紧密值范围的映射方法,在存储和计算定位时可以被看做是一种路由算法。

通过这种路与哦算法文件块能被唯一的定位到一个节点的位置.传统的hash算法容错性和扩展性都不好,无法有效的适应面向数据系统节点的动态变化。

意思就是当集群需要增加节点,传统的hash算法不容易检测到新增加的节点,此为扩展性不好,而一致性hash算法增加一个节点只会影响增加的这个节点到前一个节点之间的数据.容错性就是如果不幸一个机器C宕机了,那么机器B和C之间的数据都会被D执行,那么受影响的数据只是机器B和C之间的数据。

当然,容错性和扩展性对于节点数较多的集群是比较有意义的,对于节点较少的集群似乎这两个特性并没有什么诱惑力。

一致性hash的实际目的就是解决节点频繁变化时的任务分配问题,一致性hash将整个hash值空间组织成一个虚拟圆环,我们这里假设某hash函数H值空间为0~(2^32—1),即32位无符号整形。

下面简述一下一致性hash的原理:这是一致性hash的整个值空间0~(2^32-1)下一步将各个服务器使用Hash进行一个哈希,具体可以选择服务器的ip或主机名作为关键字进行哈希,这样每台机器就能确定其在哈希环上的位置,假设使用四台机器进行hash:将数据key使用相同的函数Hash计算出哈希值,并确定此数据在环上的位置,从此位置沿环顺时针“行走”,第一台遇到的服务器就是其应该定位到的服务器。

例如我们有Object A、Object B、Object C、Object D四个数据对象,经过哈希计算后,在环空间上的位置如下:根据一致性哈希算法,数据A会被定为到Node A上,B被定为到Node B上,C被定为到Node C上,D被定为到Node D上下面我们看看当集群机器比较少的情况例如系统中只有两台服务器,其环分布如下,此时必然造成大量数据集中到Node A上,而只有极少量会定位到Node B上。

云计算与大数据技术实训课程学习总结应用云计算与大数据技术解决实际问题的经验分享

云计算与大数据技术实训课程学习总结应用云计算与大数据技术解决实际问题的经验分享

云计算与大数据技术实训课程学习总结应用云计算与大数据技术解决实际问题的经验分享在现代科技快速发展的时代,云计算与大数据技术的应用逐渐成为了各个领域的热门话题。

作为一门实用性极强的技术,云计算与大数据技术不仅可以帮助企业提高效率,还能为人们的日常生活提供更多便利。

通过参加云计算与大数据技术实训课程,我深刻认识到了这门技术的重要性,并在实践中获得了一些解决实际问题的经验。

以下是我对于该课程学习的总结和经验分享。

首先,在云计算与大数据技术实训课程的学习中,我了解到云计算是一种基于互联网的计算方式,它将计算资源通过网络按需共享,提供强大的计算能力和存储能力,帮助用户实现数据的高效处理和存储。

大数据技术则是通过对大规模数据的采集、存储、处理和分析,从中获取有价值的信息,并支持决策和业务的发展。

云计算与大数据技术的结合使得数据的处理更加高效,能够帮助我们更好地解决实际问题。

在实际应用中,我发现云计算与大数据技术在多个领域都有广泛的应用。

首先,云计算与大数据技术在医疗领域的应用可以帮助医生更好地管理和分析患者的健康数据,实现精准诊疗,提高治疗效果。

其次,在交通领域,云计算与大数据技术可以通过对交通数据的实时分析,提供交通流量预测和优化方案,帮助提升城市交通效率,减少拥堵现象。

另外,在金融领域,云计算与大数据技术可以通过对金融数据的分析,提供风险预测和投资建议,帮助投资者做出更明智的决策。

这些领域的成功案例进一步证实了云计算与大数据技术在实际问题解决中的价值。

在参加云计算与大数据技术实训课程过程中,我还学习了许多实用的技能和工具。

例如,我学会了如何使用Hadoop工具对大数据进行分布式存储和处理,这使得我在面对海量数据时能够高效地进行处理和分析。

此外,我还学习了云平台的搭建和管理技巧,学会了如何使用云服务进行弹性计算和存储,从而提高了应对不同规模数据处理需求的能力。

这些技能的学习让我在实际应用中更加得心应手,并为我解决实际问题提供了更多的选择和工具。

云计算与大数据技术-课后习题答案docx (7)[1页]

云计算与大数据技术-课后习题答案docx (7)[1页]

7.5 习题答案
1.使用Hadoop通过浏览器监控其服务运行情况使用什么ip地址和端口?
答:假设Hadoop集群的master机器配置使用了192.168.1.21,则访问http://192.168.1.21:50070或打开http://127.0.0.1:50070均可访问到Hadoop运行状况。

2.Nagios的工作原理是什么?
答:Nagios的功能是监控服务和主机,但是他自身并不包括这部分功能,所有的监控、检测功能都是通过各种插件来完成的。

启动Nagios后,它会周期性的自动调用插件去检测服务器状态。

3.Nagios安装的前提条件是什么?
答:Nagios的官方文档中只要求安装时系统必须是Linux或者其它Nagios支持的系统即可。

为了可以用直观的界面来查看监控信息,就需要安装apache(即http服务),所以安装apache应该算是一个前提条件。

4.ganglia的工作原理是什么?
答:ganglia是一款为高性能计算集群设计的可扩展性的分布式监控系统,它可以监视和显示集群中节点的各种状态信息。

Ganglia包括gmetad、gmond和gweb这三大组件。

它由运行在各个节点上的gmond守护进程来采集CPU、内存、磁盘利用率、I/O负载、网络流量情况等方面的数据,然后汇总到gmetad守护进程下,使用rrdtool存储数据。

最后将历史数据用gweb以图形、图表等方式通过PHP页面呈现。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

第一章云计算与大数据基础1.在信息产业的发展历程中。

硬件驱动力,网络驱动力,作为两个重要的内在动力在不同的时期起着重要的作用6.MapReduce思想来源LISP语言7.按照资源封装层次,云计算分为 Iaas paas saas三种8. 教材P2 1.1.210. 教材P8 1.2.211. 教材P10 1.2.3第二章云计算与大数据相关技术1.一致性hash算法原理:哈希算法是一种从稀疏值到紧密值范围的映射方法,在存储和计算定位时可以被看做是一种路由算法。

通过这种路与哦算法文件块能被唯一的定位到一个节点的位置。

传统的hash 算法容错性和扩展性都不好,无法有效的适应面向数据系统节点的动态变化。

意思就是当集群需要增加节点,传统的hash算法不容易检测到新增加的节点,此为扩展性不好,而一致性hash算法增加一个节点只会影响增加的这个节点到前一个节点之间的数据。

容错性就是如果不幸一个机器C宕机了,那么机器B和C之间的数据都会被D执行,那么受影响的数据只是机器B和C之间的数据。

当然,容错性和扩展性对于节点数较多的集群是比较有意义的,对于节点较少的集群似乎这两个特性并没有什么诱惑力。

一致性hash的实际目的就是解决节点频繁变化时的任务分配问题,一致性hash将整个hash值空间组织成一个虚拟圆环,我们这里假设某hash函数H值空间为0~(2^32-1),即32位无符号整形。

下面简述一下一致性hash的原理:这是一致性hash的整个值空间0~(2^32-1)下一步将各个服务器使用Hash进行一个哈希,具体可以选择服务器的ip或主机名作为关键字进行哈希,这样每台机器就能确定其在哈希环上的位置,假设使用四台机器进行hash:将数据key使用相同的函数Hash计算出哈希值,并确定此数据在环上的位置,从此位置沿环顺时针“行走”,第一台遇到的服务器就是其应该定位到的服务器。

例如我们有Object A、Object B、Object C、Object D四个数据对象,经过哈希计算后,在环空间上的位置如下:根据一致性哈希算法,数据A会被定为到Node A上,B被定为到Node B上,C被定为到Node C上,D被定为到Node D上下面我们看看当集群机器比较少的情况例如系统中只有两台服务器,其环分布如下,此时必然造成大量数据集中到Node A上,而只有极少量会定位到Node B上。

为了解决这种数据倾斜问题,一致性哈希算法引入了虚拟节点机制,即对每一个服务节点计算多个哈希,每个计算结果位置都放置一个此服务节点,称为虚拟节点。

具体做法可以在服务器ip或主机名的后面增加编号来实现。

例如上面的情况,可以为每台服务器计算三个虚拟节点,于是可以分别计算“Node A#1”、“Node A#2”、“Node A#3”、“Node B#1”、“Node B#2”、“Node B#3”的哈希值,于是形成六个虚拟节点:同时数据定位算法不变,只是多了一步虚拟节点到实际节点的映射,例如定位到“NodeA#1”、“Node A#2”、“Node A#3”三个虚拟节点的数据均定位到Node A上。

这样就解决了服务节点少时数据倾斜的问题。

在实际应用中,通常将虚拟节点数设置为32甚至更大,因此即使很少的服务节点也能做到相对均匀的数据分布。

2.科学研究的四个范式:观测实验、理论、计算仿真、数据3.物联网产业链分为:标识,感知,处理,信息传送4.非关系型数据库分为:(1)Column-Oriented面向检索的列式存储,其存储结构为列式结构如:Google的big table,apache的hbase(2)Key-Value面向高性能的并发读/写的缓存存储,结构类似于Hash表(hash算法真的要好好学,用的地方太多了,性能的确也是最高的),每个key分别对应一个value,这种数据库适合用来作为缓存系统使用,比如:MemcacheDB,Berkeley DB,redis,flare(3)Document-Oriented面向海量数据访问的文档存储,这类存储类似key-value形式,只是value主要以JSON或者XML等格式进行存储,比如:mongoDB,CouchDB第三章虚拟化技术1.Popek和Goldberg 指出:虚拟机具有同一性,高效性,可控性2.虚拟化技术从计算机体系结构层次上可分为以下5类:指令集架构级虚拟化,硬件抽象层虚拟化,操作系统层虚拟化,编程语言上的虚拟化,库函数虚拟化3.常用的虚拟化软件系统有 VirtualBox ,VMware Workstation ,KVM4.系统虚拟化具有硬件无关性,隔离性,多实例,,特权功能等优点。

5.系统虚拟化可分为服务器虚拟化桌面虚拟化网络虚拟化6.服务器虚拟化按照虚拟化的部分可分为 CPU虚拟化,内存虚拟化,I/O虚拟化7.什么是广义虚拟化技术:答:虚拟化技术是一种逻辑简化技术,实现物理层向逻辑层的变化,对物理层运动复杂性的屏蔽,是系统对外运动呈现出简单的逻辑运行状态8虚拟化技术有哪些优势劣势?优势:1.虚拟化技术可提高资源利用率2.提供相互隔离,高效的应用执行环境3.虚拟化可以简化资源和资源管理4.虚拟化实现软件和硬件的分离劣势 1.可能会使物理计算机负载过重2.升级和维护引起的安全问题3.物理计算机的影响第四章集群系统基础1.云计算领域存在两个主要技术路线,一个是基于集群技术的云计算资源整合技术,一个是基于虚拟机的云计算资源切分技术2.集群的设计要考虑5个关键的问题是可用性单一系统映像作业管理并行文件系统高效通信3.传统的集群系统可以分为高可用性系统负载均衡高性能虚拟化 4类。

4简述Beowulf系统的主要特点答:1 Beowulf系统通常由一个管理节点和多个计算节点构成2 Beowulf 系统通常用最常见的硬件设备组成3 Beowulf 系统同城采用哪些廉价且广为传播的软件5 Lustre存储系统的组成有 MDS, MDT, OSS, OST, Client6.简述面向计算分布式系统,混合分布式系统,面向数据的分布式系统的实现机制,分析三种系统的区别.面向计算分布式系统: P59 4.6.1混合型分布式系统:P60 4.6.2面向数据的分布式系统:P61 4.6.3分析区别:P64 表4.2 3中分布式系统的对比第五章 MPI-面向计算的高性能集群技术1,什么是MPIMPI(Message Passing Interface)消息传递接口。

它本身不是一个具体的实现,而只是一种标准描述。

2,MPI支持 FORTRAN77 、C 、Fortran90 、 C++ 等语言的调用,能满足大多数科学计算的应用需要。

3,简述MPICH并行环境建立的主要步骤。

(1).配置好NFS服务,实现所有节点对主节点指定文件夹的共享,该文件夹为MPICH的安装位置,数据和程序的存储位置,这样就可以避免在每个节点安装MPICH,启动计算时也可以避免每次向各个节点分发程序。

(2).配置好各个节点间的互信,这一步就是实现集群内部个节点间无密码访问,因为MPICH 在计算时需要在各节点进行数据交换,集群内的节点应用相互信任的节点。

(3).编译安装配置MPICH。

4.动手配置MPI节点间的ssh无密码访问。

(1)生成私钥id_dsa和公钥id_dsa.pub(2)将该密钥用作认证,进行访问授权。

(3)将~/.ssh目录下的文件复制到所有节点。

(4)检查是否可以直接(不需要密码)登录其他节点。

5,简述基于蒙特卡罗思想求π值的编程方法,并编写用MPI程序。

蒙特卡罗方法,又称为随机抽样或统计试验方法。

代码在 Page 83 -84第六章 Hadoop-分布式大数据系统1.谷歌三宝:mapreduce,bigtable,gfs2.gfs的工作过程: p933.HDFS分块策略: p95第七章 HPCC-面向数据的高性能计算集群系统1,简述HPCC的主要特点。

(1)强大灵活的ECL语言,显著提升了程序员编程的效率。

(2)HPCC系统提供的Roxie集群提供了高效的在线查询和分析服务。

(3)ECL程序首先编译为优化的C++,高速性能得到保证。

(4)高效的错误恢复和冗余备份机制。

(5)稳定和可靠的系统。

(6)相对于其他平台,在较低的系统消耗上实现了更高的性能。

2,高性能计算目前可以分为两类:一类是面向计算的高性能计算,另一类是面向数据的高性能计算。

3,数据密集型集群计算系统主要有 Hadoop HPCC Storm Apache Drill Rapid Miner Pentaho4,HPCC系统从总体物理上可以看作在同一个集群上部署了 Thor(数据加工处理平台) 、Roxie(数据查询、分析和数据仓库) 两套集群计算系统。

5,HPCC的系统服务器包含 ECL服务器、 Dali服务器、 Sasha服务器、 DFU服务器、ESP服务器6,简述HPCC平台数据检索任务的执行过程。

(1)加载原始数据(2)切分、分发待处理的数据(3)分发后原始数据的ETL处理(4)向Roxie集群发布Page 117-1187,熟悉HPCC网页化管理界面ECLWatch。

Page 1238,动手完成HPCC的安装部署。

(省略了大部分)(1)配置ssh无密码访问(2)在每个节点上分别安装HPCC文件并查看运行情况(3)配置集群环境Page 119 - 122第八章 Storm-基于拓扑的流数据实时计算系统1.storm的三架构包括Nimbus zookeeper Supervisior2.在Storm 中没实现一个任务,用户需要构造包含Spout Bolt组件的拓扑。

相关文档
最新文档