吉林大学《大数据导论》期末考试备考资料41
2022年吉林大学数据科学与大数据技术专业《数据库系统原理》科目期末试卷B(有答案)

2022年吉林大学数据科学与大数据技术专业《数据库系统原理》科目期末试卷B(有答案)一、填空题1、数据库内的数据是______的,只要有业务发生,数据就会更新,而数据仓库则是______的历史数据,只能定期添加和刷新。
2、以子模式为框架的数据库是______________;以模式为框架的数据库是______________;以物理模式为框架的数据库是______________。
3、视图是一个虚表,它是从______导出的表。
在数据库中,只存放视图的______,不存放视图对应的______。
4、关系模型由______________、______________和______________组成。
5、数据库恢复是将数据库从______状态恢复到______的功能。
6、数据库系统是利用存储在外存上其他地方的______来重建被破坏的数据库。
方法主要有两种:______和______。
7、在SQL Server 2000中,新建了一个SQL Server身份验证模式的登录账户LOG,现希望LOG在数据库服务器上具有全部的操作权限,下述语句是为LOG授权的语句,请补全该语句。
EXEC sp_addsrvrolemember‘LOG’,_____;8、数据仓库主要是供决策分析用的______,所涉及的数据操作主要是______,一般情况下不进行。
9、数据库管理系统的主要功能有______________、______________、数据库的运行管理以及数据库的建立和维护等4个方面。
10、在SQL语言中,为了数据库的安全性,设置了对数据的存取进行控制的语句,对用户授权使用____________语句,收回所授的权限使用____________语句。
二、判断题11、关系中任何一列的属性取值是不可再分的数据项,可取自不同域中的数据。
()12、有出现并发操作时,才有可能出现死锁。
()13、在第一个事务以S锁方式读数据R时,第二个事务可以进行对数据R加S锁并写数据的操作。
大数据考试题库和答案

大数据考试题库和答案一、单项选择题1. 大数据的4V特征不包括以下哪一项?A. Volume(体量大)B. Velocity(速度快)C. Variety(种类多)D. Validity(有效性)答案:D2. 以下哪一项不是Hadoop生态系统中的组件?A. HDFSB. MapReduceC. SparkD. Cassandra答案:D3. 在大数据中,以下哪个术语指的是数据的存储格式?A. ETLB. OLAPC. NoSQLD. Hadoop答案:C4. 以下哪个不是大数据技术的优势?A. 处理速度快B. 成本低C. 存储容量小D. 可扩展性高答案:C5. 大数据技术可以应用于以下哪个领域?A. 金融B. 医疗C. 教育D. 所有以上选项答案:D二、多项选择题1. 大数据技术可以解决以下哪些问题?A. 数据挖掘B. 数据存储C. 数据分析D. 数据可视化答案:ABCD2. 以下哪些是大数据技术的关键组成部分?A. 分布式存储B. 分布式计算C. 数据库D. 机器学习答案:ABCD3. 在大数据领域,以下哪些是常见的数据源?A. 社交媒体B. 传感器数据C. 交易记录D. 网络日志答案:ABCD三、判断题1. 大数据技术只能处理结构化数据。
(错误)2. 机器学习是大数据技术的一个重要应用领域。
(正确)3. Hadoop是一个开源的大数据存储和处理框架。
(正确)4. NoSQL数据库不支持事务处理。
(错误)5. 大数据技术可以完全替代传统的数据库技术。
(错误)四、简答题1. 请简述大数据的4V特征。
答案:大数据的4V特征包括:- Volume(体量大):数据量巨大,通常以TB或PB为单位。
- Velocity(速度快):数据生成和处理的速度非常快。
- Variety(种类多):数据类型多样化,包括结构化、半结构化和非结构化数据。
- Veracity(真实性):数据的质量和准确性。
2. 请解释什么是ETL过程。
2022年吉林大学数据科学与大数据技术专业《操作系统》科目期末试卷A(有答案)

2022年吉林大学数据科学与大数据技术专业《操作系统》科目期末试卷A(有答案)一、选择题1、某时刻进程的资源使用情况见表。
此时的安全序列是()A.P1、P2、P3、P4B. P1、P3、P2、P4C. P1、P4、P3、P2D.不存在2、()不是操作系统的功能。
A.CPU管理B.存储管理C.网络管理D.数据管理3、有若干并发进程均将一个共享变量count的值加1一次,那么有关count中的值的说法正确的是()。
I.肯定有不正确的结果II.肯定有正确的结果,III.若控制这些并发进程互斥执行count加1操作,count中的值正确A. I和IIIB.II和IIIC.IIID. I、II和III的说法均不正确4、下列关于管程的叙述中,错误的是()。
A.管程只能用于实现进程的互斥B.管程是由编程语言支持的进程同步机制C.任何时候只能有一个进程在管程中执行D.管程中定义的变量只能被管程内的过程访问5、若系统中有n个进程,则在阻塞队列中进程的个数最多为()?Α. n B.n-1 C.n-2 D.16、为了使多个进程能有效地同时处理输入和输出,最好使用()结构的缓冲技术。
A.缓冲池B.循环缓冲C.单缓冲D.双缓冲7、程序员利用系统调用打开I/O设备时,通常使用的设备标识是(),A.逻辑设备名B.物理设备名C.主设备号D.从设备号8、下列关于打开文件open()操作和关闭文件close()操作的叙述,只有()是错误的。
A.close()操作告诉系统,不再需要指定的文件了,可以丢弃它B.open()操作告诉系统,开始使用指定的文件C.文件必须先打开,后使用D.目录求必须先打开,后使用9、在系统内存中设置磁盘缓冲区的主要11的是()。
A.减少磁盘1/0次数,B.减少平均寻道时间C.提高磁盘数据可靠性D.实现设备无关性10、若用户进程访问内存时产生缺页,则下列选项中,操作系统可能执行的操作是()。
I.处理越界错误 II.置换页面 II1.分配内存A.仅I、IIB.仅I、IIIC. 仅I、IIID.I,II和III11、系统为某进程分配了4个页框,该进程已访问的页号序列为2,0,2,9,3,4,2,8,2,4,8,4,5,若进程要访问的下页的页号为7,依据LRU算法,应淘汰页的页号是()A.2B.3C.4D.812、在请求分页系统中,页面分配策略与页面置换策略不能组合使用的是()。
大数据期末考试资料

1、Docker 中镜像、容器和数据卷的概念镜像:类似虚拟机中的快照,更轻量,只读,静态的。
容器:是独立运行的一个或一组应用,以及他们的运行态环境,是轻量级的,功能非常强悍,可读写,动态的。
数据卷:是一个可供一个或多个容器使用的特殊目录,多个容器可共享同一个Volume ,实现数据共享。
2、大数据平台中将物理节点转化成虚拟节点的优缺点优点:解决物理节点维护繁琐的瓶颈,虚拟化具有备份、快照、双机热备等多种功能。
缺点:功能很多是以牺牲硬件性能为代价的。
3、分布式大数据与经典关系数据库的对比经典数据库的数据大小是字节类型,支持交互式得批处理,支持多次读多次写得功能,创建得是静态表,有较高得完整性,在规模上是非线性得,并且可以迅速得做出反应分布式数据库存储数据大小是Pb 级别的,支持批处理但是没有很好的交互性能,一次写多次读,建立的数据库是动态的,有较低的完整性,数据存储是线性的,不能做出及时的反馈信息。
4、CDH 的部署流程①Cloudera Manager 安装A、下载CM 安装包B、运行安装CM②添加服务A 、添加Cloudera Management ServiceB、添加HDFS 服务C、Zookeeper 安装D、YARN 安装E、Hive 安装F、Impala 安装G、CDH 状态一览5、 本课程中的三种大数据定义① 麦肯锡公司最早给出大数据定义: 大数据是超过传统数据库工具的获取、 存储、 分析能力的数据集 ,并不是超过 TB 的才叫大数据。
② 维基百科:大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、 管理和处理的数据集。
③ 本书编者: 大数据是超过传统数据库工具、 传统数据结构、 传统程序设计语言、 传统编程思想的获取、存储、分析能力的数据集。
一个高度容错性的系统,适合部署在廉价的机器上。
MapReduce 处理海量数据的并行编程模型和计算框架。
用于大规模数据集的 并行运算。
《大数据导论》复习资料

《大数据导论》复习资料大数据技术是一系列复杂的系统,它为用户提供了“全面而高效的数据收集、处理、分析,有的甚至于深度学习”等功能,此外还可以提供实时感知和决策支持等功能。
它通常会使用自动收集、存储、解码和处理各种不同类型的数据来挖掘数据模式和特征。
大数据技术以有效较高的,可快速部署的方式,各行业中处处展现出自己的神奇作用。
以健康行业为例,连接医疗企业、政府部门、技术服务商以及普通消费者等社会关系,利用大数据联合预防性策略,实现预测保健的功能。
比如,处理来自互联网上的用户活动数据,用来分析健康趋势,以精准个性化的方式为用户提供健康管理和服务。
在教育领域,大数据技术可以应用于详细的学习管理,帮助人们更好地理解学习过程,以及有效改善教育成果,如教育质量等。
例如,学校可以使用大数据分析分析校内学生的行为,以及学习环境与学习成绩之间的关系,从而科学安排课程,改善教材,优化课时安排,并跟踪学习过程的发展和教学质量的改进。
在政府和企业中,应用大数据技术分析战略决策,利用实时数据来辅助决策,缩短决策时间,并为控制及计划工作提供及时准确的信息。
例如,政府可以将其用于官员行政效能评估,帮助完善事务司法,并提高联邦、州级和地方政府的运行效率。
大数据技术可仨用于提高安全性,以及侦测和预测犯罪、灾难和军事行动等行动的可能性。
例如,使用大数据分析可以帮助改善社会安全防护体系,同时帮助采用有效的决策来预防不同类型的活动,如欺诈行为和恐怖袭击等。
大数据技术是一种复杂的技术,其优势包括快速部署,多领域间的交互和融合,以及可持续和可扩展规模等。
但它也存在一定的风险和挑战,例如防止泄漏个人数据,以及利用硬件和软件资源的持续性等。
因此,使用大数据技术的实践者需要遵循诸如存储协议、安全协议和允许的使用等法律规定,建立完善的安全和隐私保护制度,以确保大数据技术的良性发展。
大数据技术概论期末复习题2023-11(附参考答案)

单项选择题1.下列各项不属于数据的是()oA.文本B.图像C.视频D.印象2.下列各项不属于大数据特征的是()oA体量大 B.种类多C真实性 D.数据生成慢3.数据异常值的处理方法不包括()。
A极小值替换 B.删除C忽略 D.视为缺失值进行填补4.下列各项不能用于描述数据集中趋势的是()。
A方差 B.平均数C中位数D.峰值5.下列各项不属于HadoOP的特点是()。
A.存储迅速B.成本高C,计算能力强 D.灵活性强6.在工业网络实时监控系统中,需要连续不断地采集和处理数据。
以下()不属于这种计算模式。
A.在线处理B.实时处理C.流式计算D.批量计算7.下面不是研究数据方法的是()。
A.统计学B.机器学习C.心理分析D.数据挖掘8.下面不属于大数据的处理过程的是()。
A.数据获取B.数据清洗C数据分析 D.数据安全9.下面不属于大数据计算模式的类型的是()。
A.批量计算B.手动计算C.流式计算D,交互式计算10.下列各项属于合规数据的是()oA非法收集隐私信息数据 B.取得使用者同意的个人资料数据C泄露的隐私信息数据 D.垄断数据11.在HadOOP生态系统中,主要负责节点集群的任务调度和资源分配,将存储和计算资源分配给不同应用程序的组件是()。
A.HDFSB.MapReduceC.YARND.Storm12.下列属于图数据的主要特性的是()。
A.数据驱动计算B.不规则问题C高数据访问率 D.以上均是13.可以用来查看数值型变量的分布的可视化方法是()。
A.箱线图B.直方图C小提琴图D,以上方法均可以14.如果只是研究两个数值变量之间的关系,最常见的可视化方法是()。
A.直方图B.散点图C饼图 D.折线图15.下列各项不属于批处理系统的特点的是()。
A.可以实现实时的分析报告或自动响应B.可以实现无缝扩展以处理峰值数据量或数据请求C,支持数据在不同系统之间进行交换D.支持作业执行状态的监控16.下列各项属于非结构化数据的是()0A.图像B.二维数据表CHTML文档 D.以上均是17.在大数据的处理流程中,()步骤是将数据转化为图形,以更直观的方式展示和表达。
(完整版)大数据复习题(答案)

(完整版)大数据复习题(答案)一、单选题1、大数据的起源是(B)。
A:金融B:互联网C:电信D:公共管理2、大数据的最明显特点是(B)。
A:数据类型多样B:数据规模大C:数据价值密度高D:数据处理速度快3、大数据时代,数据使用的最关键是(D)。
A:数据收集B:数据存储C:数据分析D:数据再利用4、云计算分层架构不包括(D)。
A: Iaas B: Paas C: Saas D: Yaas5、大数据技术是由(C)公司首先提出来的。
A:阿里巴巴B:百度C:谷歌D:微软6、数据的精细化程度是指(C),越细化的数据,价值越高。
A:规模B:活性C:颗粒度D:关联性7、数据清洗的方法不包括(C)A:噪声数据清除B:一致性检查C:重复数据记录处理D:缺失值处理智能手环的应用开发,体现了(C)的数据采集技术的应用。
A:网络爬虫B:API接口C:传感器D:统计报表9、下列关于数掲重组的说法中,错误的是(A)。
A:数据的重新生产和采集B:能使数据焕发新的光芒C:关键在于多源数据的融合和集成D:有利于新的数据模式创新10、美国海军军官莫里通过对前人航海日志的分析,绘制考了新的航海路线图,标明了大风与洋流可能发生的地点。
这体现了大数据分析理念中的(B)。
A:在数据基础上倾向于全体数据而不是抽样数据B:在分析方法上更注重相关分析而不是因果分析C:在分析效果上更追究效率而不是绝对精确D:在数据规模上强调相对数据而不是绝对数据11、下列关于含思伯格对大数据特点的说法中,错误的是(D)A:数据规模大B:数据类型多C:处理速度快D:价值密度高12、当前社会中,最为突出的大数据环境是(A)A:互联网B:自然环境C:综合国力D:物联网13、在数据生命周期管理实践中,(B)是执行方法。
A:数据存储和各份规范B:数据管理和维护C:数据价值发觉和利用D:数据应用开发和管理14、下列关于网络用户行为的说法中,错误的是(C)。
A:网络公司能够捕捉到用户在其网站上的所有行为B:用户离散的交互痕迹能够为企业提升服务质量提供参C:数字轨迹用完即自动删除D:用户的隐私安全很难得以规范保护15、下列关于聚类挖报技术的说法中,错误的是(B)。
《大数据概论》期末试卷含答案

《大数据概论》期末试卷含答案1.当前社会中,最为突出的大数据环境是惮选题]*A.互联网(正确答案)B.物联网C.综合国力D.自然资源2.以下哪个不是大数据的特征()惮选题]*A.价值密度低B.数据类型繁多C.访问时间短(正确答案)D.处理速度快3.大数据的起源是()。
佯选题]*A.金融B.电信C.互联网(正确答案)D.公共管理4.第三次信息化浪潮发生在哪一年前后()。
惮选题]*A.1980B.1995C.2010 (正确答案)D. 20195. 以下说法错误的是?() 惮选题]*A.大数据对传统行业有帮助B.大数据是一种思维方式C. 大数据会带来机器智能D. 大数据仅仅是讲数据的体量大(正确答案)6. 下列单位不是数据单位的是()惮选题]*A bitB.N B(正确答案)C.G BD.T B7. ()是长期储存在计算机内、有组织的、可共享的数据集合。
惮选题]*A. 数据库系统B.数据库(正确答案)C数据库管理系统D. 数据结构8. 数据库中存储的是()惮选题]*A. 数据B.数据模型C. 数据及数据间的联系(正确答案)D信息9.以下哪一项属于非结构化数据。
() 惮选题]*A.企业ER P数据B.财务系统数据C.视频监控数据(正确答案)D.日志数据10. HB as e是分布式列式存储系统,记录按什么集中存放。
() 惮选题]*A.列族(正确答案)B.列C. 行D.不确定11.哪一种数据采集方法被看作是软件传感器”。
() 惮选题]*A.传感器B.系统日志(正确答案)C.网络爬虫D. 众包12.在关系数据库系统中,一个关系相当于()。
惮选题]*A.一张二维表(正确答案)B. 一条记录C.一个关系数据库D. 一个关系代数13. 大数据时代,数据使用的关键是惮选题]*A. 数据收集B.数据存储C. 数据分析D. 数据再利用(正确答案)14以下哪一种数据采集方法是网站应用(如搜索引擎)主要的数据采集方式。
() 惮选题]*A.传感器B.系统日志C. 网络爬虫(正确答案)D.众包15. 在数据集合中,每个信息不包含语义错误或相互矛盾的数据。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
不是技术也能看懂云计算,大数据,人工智能我今天要讲这三个话题,一个是云计算,一个大数据,一个人工智能,我为什么要讲这三个东西呢?因为这三个东西现在非常非常的火,它们之间好像互相有关系,一般谈云计算的时候也会提到大数据,谈人工智能的时候也会提大数据,谈人工智能的时候也会提云计算。
所以说感觉他们又相辅相成不可分割,如果是非技术的人员来讲可能比较难理解说这三个之间的相互关系,所以有必要解释一下。
一、云计算最初是实现资源管理的灵活性我们首先来说云计算,云计算最初的目标是对资源的管理,管理的主要是计算资源,网络资源,存储资源三个方面。
管数据中心就像配电脑什么叫计算,网络,存储资源呢?就说你要买台笔记本电脑吧,你是不是要关心这台电脑什么样的CPU啊?多大的内存啊?这两个我们称为计算资源。
这台电脑要能上网吧,需要有个网口可以插网线,或者有无线网卡可以连接我们家的路由器,您家也需要到运营商比如联通,移动,电信开通一个网络,比如100M的带宽,然后会有师傅弄一根网线到您家来,师傅可能会帮您将您的路由器和他们公司的网络连接配置好,这样您家的所有的电脑,手机,平板就都可以通过您的路由器上网了。
这就是网络。
您可能还会问硬盘多大啊?原来硬盘都很小,10G之类的,后来500G,1T,2T的硬盘也不新鲜了。
(1T是1024G),这就是存储。
对于一台电脑是这个样子的,对于一个数据中心也是同样的。
想象你有一个非常非常大的机房,里面堆了很多的服务器,这些服务器也是有CPU,内存,硬盘的,也是通过类似路由器的设备上网的。
这个时候的一个问题就是,运营数据中心的人是怎么把这些设备统一的管理起来的呢?灵活就是想啥时要都有,想要多少都行管理的目标就是要达到两个方面的灵活性。
哪两个方面呢?比如有个人需要一台很小很小的电脑,只有一个CPU,1G内存,10G的硬盘,一兆的带宽,你能给他吗?像这种这么小规格的电脑,现在随便一个笔记本电脑都比这个配置强了,家里随便拉一个宽带都要100M。
然而如果去一个云计算的平台上,他要想要这个资源的时候,只要一点就有了。
所以说它就能达到两个方面灵活性。
第一个方面就是想什么时候要就什么时候要,比如需要的时候一点就出来了,这个叫做时间灵活性。
第二个方面就是想要多少呢就有多少,比如需要一个很小很小的电脑,可以满足,比如需要一个特别大的空间,以云盘为例,似乎云盘给每个人分配的空间动不动就就很大很大,随时上传随时有空间,永远用不完,这个叫做空间灵活性。
空间灵活性和时间灵活性,也即我们常说的云计算的弹性。
为了解决这个弹性的问题,经历了漫长时间的发展。
物理设备不灵活首先第一个阶段就是物理机,或者说物理设备时期。
这个时期相当于客户需要一台电脑,我们就买一台放在数据中心里。
物理设备当然是越来越牛,例如服务器,内存动不动就是百G内存,例如网络设备,一个端口的带宽就能有几十G 甚至上百G,例如存储,在数据中心至少是PB级别的(一个P是1024个T,一个T是1024个G)。
然而物理设备不能做到很好的灵活性。
首先它不能够达到想什么时候要就什么时候要、比如买台服务器,哪怕买个电脑,都有采购的时间。
突然用户告诉某个云厂商,说想要开台电脑,如果使用物理服务器,当时去采购啊就很难,如果说供应商啊关系一般,可能采购一个月,供应商关系好的话也需要一个星期。
用户等了一个星期后,这时候电脑才到位,用户还要登录上去开始慢慢部署自己的应用,时间灵活性非常差。
第二是空间灵活性也不行,例如上述的用户,要一个很小很小的电脑,现在哪还有这么小型号的电脑啊。
不能为了满足用户只要一个G的内存是80G硬盘的,就去买一个这么小的机器。
但是如果买一个大的呢,因为电脑大,就向用户多收钱,用户说他只用这么小的一点,如果让用户多付钱就很冤。
虚拟化灵活多了有人就想办法了。
第一个办法就是虚拟化。
用户不是只要一个很小的电脑么?数据中心的物理设备都很强大,我可以从物理的CPU,内存,硬盘中虚拟出一小块来给客户,同时也可以虚拟出一小块来给其他客户,每个客户都只能看到自己虚的那一小块,其实每个客户用的是整个大的设备上其中的一小块。
虚拟化的技术能使得不同的客户的电脑看起来是隔离的,我看着好像这块盘就是我的,你看这呢这块盘就是你的,实际情况可能我这个10G和您这个10G是落在同样一个很大很大的这个存储上的。
而且如果事先物理设备都准备好,虚拟化软件虚拟出一个电脑是非常快的,基本上几分钟就能解决。
所以在任何一个云上要创建一台电脑,一点几分钟就出来了,就是这个道理。
这个空间灵活性和时间灵活性就基本解决了。
虚拟世界的赚钱与情怀在虚拟化阶段,最牛的公司是Vmware,是实现虚拟化技术比较早的一家公司,可以实现计算,网络,存储的虚拟化,这家公司很牛,性能也做得非常好,然后虚拟化软件卖的也非常好,赚了好多的钱,后来让EMC(世界五百强,存储厂商第一品牌)给收购了。
但是这个世界上还是有很多有情怀的人的,尤其是程序员里面,有情怀的人喜欢做一件什么事情呢?开源。
这个世界上很多软件都是有闭源就有开源,源就是源代码。
就是说某个软件做的好,所有人都爱用,这个软件的代码呢,我封闭起来只有我公司知道,其他人不知道,如果其他人想用这个软件,就要付我钱,这就叫闭源。
但是世界上总有一些大牛看不惯钱都让一家赚了去。
大牛们觉得,这个技术你会我也会,你能开发出来,我也能,我开发出来就是不收钱,把代码拿出来分享给大家,全世界谁用都可以,所有的人都可以享受到好处,这个叫做开源。
比如最近蒂姆·伯纳斯·李就是个非常有情怀的人,2017年,他因“发明万维网、第一个浏览器和使万维网得以扩展的基本协议和算法”而获得2016年度的图灵奖。
图灵奖就是计算机界的诺贝尔奖。
然而他最令人敬佩的是,他将万维网,也就是我们常见的www的技术无偿贡献给全世界免费使用。
我们现在在网上的所有行为都应该感谢他的功劳,如果他将这个技术拿来收钱,应该和比尔盖茨差不多有钱。
例如在闭源的世界里有windows,大家用windows都得给微软付钱,开源的世界里面就出现了Linux。
比尔盖茨靠windows,Office这些闭源的软件赚了很多钱,称为世界首富,就有大牛开发了另外一种操作系统Linux。
很多人可能没有听说过Linux,很多后台的服务器上跑的程序都是Linux上的,比如大家享受双十一,支撑双十一抢购的系统,无论是淘宝,京东,考拉,都是跑在Linux上的。
再如有apple就有安卓。
apple市值很高,但是苹果系统的代码我们是看不到的。
于是就有大牛写了安卓手机操作系统。
所以大家可以看到几乎所有的其他手机厂商,里面都装安卓系统,因为苹果系统不开源,而安卓系统大家都可以用。
在虚拟化软件也一样,有了Vmware,这个软件非常非常的贵。
那就有大牛写了两个开源的虚拟化软件,一个叫做Xen,一个叫做KVM,如果不做技术的,可以不用管这两个名字,但是后面还是会提到。
虚拟化的半自动和云计算的全自动虚拟化软件似乎解决了灵活性问题,其实不全对。
因为虚拟化软件一般创建一台虚拟的电脑,是需要人工指定这台虚拟电脑放在哪台物理机上的,可能还需要比较复杂的人工配置,所以使用Vmware的虚拟化软件,需要考一个很牛的证书,能拿到这个证书的人,薪资是相当的高,也可见复杂程度。
所以仅仅凭虚拟化软件所能管理的物理机的集群规模都不是特别的大,一般在十几台,几十台,最多百台这么一个规模。
这一方面会影响时间灵活性,虽然虚拟出一台电脑的时间很短,但是随着集群规模的扩大,人工配置的过程越来越复杂,越来越耗时。
另一方面也影响空间灵活性,当用户数量多的时候,这点集群规模,还远达不到想要多少要多少的程度,很可能这点资源很快就用完了,还得去采购。
所以随着集群的规模越来越大,基本都是千台起步,动辄上万台,甚至几十上百万台,如果去查一下BAT,包括网易,包括谷歌,亚马逊,服务器数目都大的吓人。
这么多机器要靠人去选一个位置放这台虚拟化的电脑并做相应的配置,几乎是不可能的事情,还是需要机器去做这个事情。
人们发明了各种各样的算法来做这个事情,算法的名字叫做调度(Scheduler)。
通俗一点的说,就是有一个调度中心,几千台机器都在一个池子里面,无论用户需要多少CPU,内存,硬盘的虚拟电脑,调度中心会自动在大池子里面找一个能够满足用户需求的地方,把虚拟电脑启动起来做好配置,用户就直接能用了。
这个阶段,我们称为池化,或者云化,到了这个阶段,才可以称为云计算,在这之前都只能叫虚拟化。
云计算的私有与公有云计算大致分两种,一个是私有云,一个是公有云,还有人把私有云和公有云连接起来称为混合云,我们暂且不说这个。
私有云就是把虚拟化和云化的这套软件部署在别人的数据中心里面,使用私有云的用户往往很有钱,自己买地建机房,自己买服务器,然后让云厂商部署在自己这里,Vmware后来除了虚拟化,也推出了云计算的产品,并且在私有云市场赚的盆满钵满。
所谓公有云就是虚拟化和云化软件部署在云厂商自己数据中心里面的,用户不需要很大的投入,只要注册一个账号,就能在一个网页上点一下创建一台虚拟电脑,例如AWS也即亚马逊的公有云,例如国内的阿里云,腾讯云,网易云等。
亚马逊呢为什么要做公有云呢?我们知道亚马逊原来是国外比较大的一个电商,它做电商的时候也肯定会遇到类似双11的场景,在某一个时刻大家都冲上来买东西。
当大家都冲上买东西的时候,就特别需要云的时间灵活性和空间灵活性。
因为它不能时刻准备好所有的资源,那样太浪费了。
但也不能什么都不准备,看着双十一这么多用户想买东西登不上去。
所以需要双十一的时候,创建一大批虚拟电脑来支撑电商应用,过了双十一再把这些资源都释放掉去干别的。
所以亚马逊是需要一个云平台的。
然而商用的虚拟化软件实在是太贵了,亚马逊总不能把自己在电商赚的钱全部给了虚拟化厂商吧。
于是亚马逊基于开源的虚拟化技术,如上所述的Xen或者KVM,开发了一套自己的云化软件。
没想到亚马逊后来电商越做越牛,云平台也越做越牛。
而且由于他的云平台需要支撑自己的电商应用,而传统的云计算厂商多为IT厂商出身,几乎没有自己的应用,因而亚马逊的云平台对应用更加的友好,迅速发展成为云计算的第一品牌,赚了很多钱。
在亚马逊公布其云计算平台财报之前,人们都猜测,亚马逊电商赚钱,云也赚钱吗?后来一公布财报,发现不是一般的赚钱,仅仅去年,亚马逊AWS年营收达122亿美元,运营利润31亿美元。
云计算的赚钱与情怀公有云的第一名亚马逊过得很爽,第二名Rackspace过的就一般了。
没办法,这就是互联网行业的残酷性,多是赢者通吃的模式。
所以第二名如果不是云计算行业的,很多人可能都没听过了。
第二名就想,我干不过老大怎么办呢?开源吧。
如上所述,亚马逊虽然使用了开源的虚拟化技术,但是云化的代码是闭源的,很多想做又做不了云化平台的公司,只能眼巴巴的看着亚马逊挣大钱。