搭建基于云计算的开源海量数据挖掘平台

应用实践

搭建基于云计算的开源海量数据挖掘平台

赵华茗

(中国科学院国家科学图书馆北京100190)

摘要通过分析亚马逊弹性M apR e duce(EMR )平台构架,针对信息情报机构内部数据处理的迫切需求,提出通过开源技术X en 和H adoop 平台构建基于云计算的动态可伸缩的海量数据处理平台并给出实施方案、海量文本数据处理案例和开源EMR 平台的优势分析。实施方案主要分为三部分:搭建动态虚拟的云计算环境、安装制作H adoop 虚拟服务器模板、配置运行C l oudera 和C l oudera D esktop 。通过开源EMR 架构的应用,可以有效解决服务器蔓延问题,提高网络计算资源的利用效率和分布式数据挖掘服务的快速布署能力及灵活性。关键词云计算海量数据挖掘虚拟技术分布式计算 Xen Cloudera H adoop 分类号 TP393

Buil di ng t he Open SourceM ass DataM i ni ng Platform Based on C l oud Co mputi ng

Zhao H ua m ing

(N ational Sci ence L i brary ,Ch i nese A cade m y o f Sciences ,Beijing 100190,Ch i na)

Abstract A m i i ng to m eet the i nter nal data processi ng needs of inf or m ati on organizati ons ,t h is paper ,by analyzi ng the fra m e wor ks o f Am azon E last i c M ap/R e duce (EM R )pl atfor m,puts for w ard to buil d t he dyna m ic and e l astic open source m ass datam i n i ng platfor m based on cloud co mputi ng ,and provides a road m ap of successful m i ple m entati on ,an exa mple of m assive text data processing and the analysis of advantages of open source EM R platf or m.This m i ple m entati on plan i ncl udes three parts :buildi ng dyna m ic virtual env ir on m ent of cloud co mputi ng ,creati ng the v irtual server te mplate of H a doop ,and depl oyi ng and r unni ng Cloudera and C loudera Desktop .Through the application of open source E M R platfor m,the proble m of ser ver spra w l can be solve d effectively ,the utilization rati o of net work co mputi ng resource is m i pr oved ,and the r ap i d depl oy m ent capability a nd ag ility of distri buted data processi ng ser v ices are e nha nced .

K ey words C l oud co mputi ng M ass data m i ni ng V irtualizat i on D istribute d co mputi ng X e n C l oudera H a doop

收稿日期:2010-09-26

收修改稿日期:2010-09-28

*本文系!第二十四届全国计算机信息管理学术研讨会?论文。

1 引言

互联网促进了信息流通,也带来了信息的爆炸式增长,最新的I DC 研究报告指出2010年全球信息量将进入ZB 时代,并且每年以60%的速度在上升,这意味着每18个月全球信息数据量将被翻倍

[1]

。面对不断拓展的惊人

的数据规模,海量信息的存储与管理、实时处理、数据搜索、数据挖掘与智能应用等信息处理能力面临新的挑战,信息技术架构迫切需要以动态可伸缩为特点的支持海量数据处理的新的存储计算模式。

云计算因为其弹性可伸缩的计算模式,受到以I BM、亚马逊、谷歌等为代表的众多高科技公司的重视,成为各公司应对海量信息处理的利器。近年来,出现了众多各具特色的云计算应用产品,包括应用在服务托管领域的亚马逊弹性云、著名的谷歌搜索、Zoho在线办公应用等。而在海量数据存储挖掘领域的典型云计算应用也出自于亚马逊公司,即亚马逊的H adoop架构服务,称为弹性MR(E l astic M apReduce,EM R)[2,3],其整体架构如图1所示:

图1 亚马逊E M R整体构架图[2]

E M R框架分为三部分,控制接口(A W S Console)、存储服务(Sm i ple Storage Ser v ice,S3)和弹性计算(E l astic Co mpute C l oud,EC2)。通过EMR平台,企业、研究人员、数据分析师可以花费较少的费用轻松处理大数据集而不用担心计算设备问题。显而易见,随着数据宇宙时代的到来,这种新的动态可伸缩的数据处理模式必将在信息技术领域扮演越来越重要的角色。本文在云计算开源框架下给出如何搭建信息分析机构内部的弹性海量数据挖掘平台解决方案并给出了实施步骤。

2 云计算开源框架Cloudera和XenServer

在可信计算尚不成熟的时候,通过开源技术实现随需弹性处理机构内部数据是机构信息人员搭建机构内部的EMR框架的出发点。分析亚马逊E M R服务框架,不难看出动态可伸缩的大数据集计算模式主要解决两个关键问题:动态布署虚拟H adoop节点服务器和在节点服务器间快速配置搭建H adoop分布式环境。考察目前已有较成熟的开源技术,在开源框架下搭建这样动态灵活的大数据处理解决方案可以有几种组合方式,如:最接近亚马逊EMR框架的Eucalypt us+H a doop组合、基于虚拟操作系统上的分布式文件系统环境V M ware+H adoop组合和X e nServer+C louder a组合等。目前,还没看到介绍以开源框架搭建EM R平台的相关文献。本文使用最后一种平台组合构建本系统机构内部的开源E M R平台,实现类似于亚马逊E M R框架中大数据处理所需的控制、存储、计算等相应的三部分关键功能。

2.1 开源H adoop发行版C l oudera系统平台

C l oudera是一款开源标准的H a doop布署及调度平台[4],可以有效提升H adoop环境的易管理性,降低对使用人员的要求,使H adoop初学者也可用该软件搭建谷歌式云计算平台,处理海量数据。据统计,目前大约有75%的H adoop新用户使用C l oudera[5]。

2.2 H adoop交互管理平台C loudera D esktop

Cloudera D esktop[6]提供了一个图形化的基于W eb 的针对H adoop框架的交互管理平台。用户可以以可视方式进行文件系统操作、权限管理、M apR educe任务管理、提交、浏览、监控计算任务状态并提供监控图表功能、浏览存储资料等。支持主流浏览器(F irefox、Chro m e、Safari和I E8+)。

2.3 免费的虚拟机管理平台XenServer

虚拟技术是云计算基础构架技术,也是本文搭建开源EMR平台的基础构架技术。目前,典型的虚拟机技术实现有Critri x XenSer ver[7,8]、VMw are ESX Ser v er[9]、M icr oso ft H yper-V[7]等。相较其他两种,C itrix X enSer ver的虚拟机的性能更接近真实硬件环境,硬件支持广泛,具有更好的安全性、兼容性和开源性,也是本文选用的主要原因。

3 搭建开源E M R环境

本文设计的开源E M R平台包括虚拟云平台和分布式计算平台两部分,其整体架构如图2所示。

虚拟云平台是一个基于网络的动态可伸缩的虚拟设备环境,弹性管理网络设备资源,如:动态调配物理设备资源、存储设备资源及动态创建的H adoop虚拟服务器,有效支持对计算资源的规模化集约化管理。本文的虚拟云平台使用X e nServer和XenCenter实现。而分布式计算环境是一个基于H adoopM ap/R educe框架的开源大数据并行计算环境,选用C l oudera和C loudera

图2 开源E M R整体构架图

Desktop实现。C louder a D esktop是一个访问控制接口,提供基于F irefox浏览器的简单界面。开源EM R的实现过程可以分为三部分:搭建动态虚拟的云计算环境、安装制作H adoop虚拟服务器模板、配置运行C loudera 和C l oudera D esktop。第一部分是虚拟云环境,第二、三部分是分布式计算环境。

3.1 搭建动态虚拟的云计算环境

通过X enServer和XenCenter搭建动态虚拟的云计算环境的过程较复杂[10]。主要注意事项如下:

(1)X enServer要求安装在64位X86服务器上(32位服务器不支持64位的虚拟机),并且不支持多系统,不支持多系统引导,不能再安装运行其他应用程序。为充分利用虚拟平台的动态资源调度特性,应以资源池方式管理虚拟云环境中的服务器设备资源和存储设备资源,因此所有安装X e nServer软件的主机应配置静态地址,其中一台为资源池的管理机,其他物理主机作为普通服务器加入,所有主机的管理员和密码最好相同。

(2)X e nCenter安装要求有.NET框架2.0及以上版本的支持,可以安装在普通W i ndo ws管理机上。安装过程中应注意XenCenter的安装路径,推荐修改为!C:\C itri x\XENCenter\?,以确保后期程序调用X en Server AP I接口时不会出现路径指向问题。

(3)云计算环境中的数据安全很关键,因此存储设备和云计算环境分开是最理想的。X e nCe nter支持的存储设备主要有三种:基于NFS VHD的存储池、基于i SCSI的存储池、基于H ardware HBA的存储池。配置存储池时要注意存储设备的接口配置提示信息,基于NFS VHD方式的阵列设备的正确配置信息应该是!:/?(XenSer ver5.5版的提示信息模糊)。配置基于H ardwareHBA方式的阵列设备时,要在X e nServer安装或系统恢复时将光纤临时断开,系统运行后再物理连接上,系统会自动找到已连接上的阵列设备。

3.2 安装制作H adoop虚拟服务器模板

制作H adoop虚拟服务器模板是搭建开源E M R框架的关键点之一,通过H adoop模板,可以在已搭建好的虚拟云环境中快速创建H adoop虚拟服务器节点,有效节省系统安装时间,并将H adoop分布环境的搭建重点放在SS H安全数据传输连接和参数同步上,从而快速完成H adoop分布环境的部署和调度,与传统H adoop 分布式环境相比,基于虚拟环境的H adoop分布式环境更灵活、更简捷、更有效地利用网络计算资源。主要制作过程和注意事项如下:

(1)安装L inux基本操作系统(Base Syste m)

通过X e nCe nter创建新的服务器模板,在确定模板所需的操作系统类型、处理器、内存及硬盘大小后,即可根据提示完成模板的安装。根据Hadoop分布环境安装要求,在测试过程中,选择安装L i nux操作系统Cent OS,虚拟处理器Xeon E7420一个,虚拟内存1GB,虚拟硬盘空间60GB。整个安装过程与单机安装Cen t OS操作系统的实际过程类似。

注意事项:免费版的XenSer ver5.5对虚拟硬盘空间大小有限制,不能在创建服务器(基于已创建好的模板)时动态调整虚拟硬盘空间大小(但可以动态调整处理器和内存的大小),因此在创建服务器模板时要考虑具体应用环境的需要,确定合适的虚拟硬盘空间。

(2)安装H adoop软件包

经过第一步,L i nux操作系统的基本系统安装完成后,即可开始安装H adoop软件包,为后面布署分布式计算环境做准备,本文使用H adoop的企业优化发行版C l oudera平台工具。Cloudera被简化优化后,和H adoop 安装过程略有不同,注意默认的安装路径即可,目前C l oudera的稳定发行版支持到H adoop-0.20。主要安装过程如下:

#./j dk-6u16-L i nux-i586-rp m.b i n//安装Java环境

#cu rl h tt p://arch i ve.C l oudera.co m/redhat/cdh/C loudera-cdh2. repo>/et c/yum.repos.d/C l oudera-cdh2.repo//yum更新配置文件

#yum-y i nstallH adoop-0.20-con f-p seudo//安装C l oudera #yum-y i nstall H adoop-0.20-con f-p seudo-des k t op//安装C l oudera D esktop

注意事项:C l oudera安装没有用户限制(非r oot用户使用sudo yum安装即可),但H adoop分布式文件系统格式化必须由H adoop用户执行,因此,H adoop服务器节点模板创建时最好同时创建H adoop用户并授予sudo超级权限。

3.3 配置运行C l oudera和Cloudera D esk t op

H adoop虚拟服务器模板制作完成后,即可在X en Center监控窗口中看到该模板,双击后根据提示创建基于该模板的H adoop虚拟服务器,同理,根据需要可以创建多个H adoop虚拟服务器节点。每个节点都已经安装好L i nux操作系统和H adoop软件包,用户只需要配置运行H adoop分布式环境,即可实现大数据处理所需的计算环境。H adoop平台有三种运行方式:单机模式、伪模式和完全分布式模式,这里仅讨论完全分布模式的配置。本文参考H adoop分布式环境配置[11]和C l oudera安装过程[12]并在虚拟环境中测试后,整理主要配置过程和注意事项如下:

(1)配置网络安全协议SS H

在每个虚拟节点服务器上利用SS H生成密钥对,并且将彼此公钥追加到自身和其他节点机的author ized_keys文件中,以保证各节点之间能够通过SSH工具不输入密码直接登录,自身也必须保证不输入密码直接登录。

注意事项:因为H adoop分布式文件系统格式化必须由H adoop用户执行,所以各个节点上的SS H配置最好以H adoop用户身份进行。

(2)分布式环境参数配置

C loudera的默认参数文件路径是!/etc/H adoop/ conf/?,主要配置文件为Hadoop e nv.sh、core site.x m l、hdfs site.x m l、m apred site.x m l、conf/masters和c onf/ slaves,与H adoop的分布式环境配置相似。Cloudera默认参数为伪模式配置,完全分布模式配置主要是修改Java运行环境路径、节点机名称或节点机I P地址等相关信息。配置好主节点N a m enode的参数后,将配置文件拷贝到其他节点机上,同步整个H adoop环境参数。参数数据同步命令如下:

$scp-r/etc/H adoop/confH adoop s l aves:/etc/H adoop

注意事项:C l oudera除了上述的6个配置文件外,还有一个专门针对C loudera Desktop的参数配置文件!/usr/share/C loudera desktop/conf/C loudera desktop.

i ni?,参数修改如下:

na m enod e_hos t=localhos t修改为namen ode_host=na m enode

j ob tracker_hos t=l ocalhost修改为jobtracker_host=na m enode

(3)运行分布式环境

初始化:

$./u sr/li b/H adoop-0.20/b i n/H adoop na m enod e–for m at 启动C loudera:

$for x i n/etc/i n i t.d/H adoop-0.20-*;do$x s t art;done 启动C loudera D esktop:

$s udo/etc/init.d/C l oudera-desktop start

成功启动C l oudera和C loudera D esktop之后,数据分析人员就可以通过浏览器方式简单实现对基于虚拟技术的分布式环境(EM R)的控制和管理,并可以开始进行大数据处理。入口地址:!http://m yserveri p: 8088/?,如图3所示:

图3 C l oudera Desktop服务入口示意图

3.4 Cloudera常见问题及解决方案

(1)大数据计算时常报!N a m e node is i n safe mode?错误。原因分析:在分布式文件系统启动的时候,开始的时候会有安全模式,当分布式文件系统处于安全模式的情况下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。

解决的命令:

$b i n/H adoop dfsadm i n-s afe m ode leave//关闭saf e m ode

(2)大数据计算时报!Per m issi on denied except i on

i n j ob desi gner?错误。原因分析:系统默认的临时目录!H adoop.t m p.dir?的读写权限不够。

解决的命令:

$chmod777/var/li b/H adoop-0.20/cache/H adoop

3.5 增加H adoop虚拟服务器节点(Slavenode)

虚拟云计算是基于虚拟技术动态分配网络计算资

源,随需提供入门级应用的计算模式。而结合虚拟技术和分布式技术则在理论上提供了可无限动态扩展网络计算资源的随需提供企业级海量数据挖掘的计算模式。在开源海量数据挖掘平台(EM R)中,动态扩展存储和计算资源的方法是在增加H adoop节点服务器方法[13]的基础上,结合虚拟技术实现,关键步骤如下:

(1)在X enCenter监控窗口中,基于H adoop虚拟服务器模板创建新的H adoop节点服务器Slavenode;实际上,结合X e nAP I接口,该步骤也可以在浏览器的方式下在线完成[14];

(2)在Slave node上配置好H adoop节点服务器所需的运行环境,包括SS H、相关C l ouder a配置文件的拷贝; (3)将新的S l avenode的Host信息加到集群N a m e node及其他D atanode的/etc/hosts配置文件中去;将新的Slavenode的I P加到M aster的conf/slaves中;

(4)重启H adoop C luster,在Cluster中看到新的S l avenode节点。

注意事项:新添加一个节点到集群当中时,HDFS 不会自动地移动文件块到新节点中去平衡磁盘空间,而新创建的文件将只会使用新节点的磁盘空间。解决方案如下:

(1)将文件复制一份,然后删掉源文件。

(2)将磁盘块满的节点关掉,等待直到文件块自动复制完成,再把节点加回去。这样,冗余数量变得过多,系统将会随机删去多余的冗余。

(3)运行bin/start-bala ncer.sh命令,这会很耗时间。

4 海量数据挖掘实例

在信息爆炸的今天,海量数据挖掘几乎是任何一个信息分析机构要面对的课题。而用户每天面临的80%信息都是文本信息。这里通过基本的M apR educe W ordCount算法测试说明基于机构内部自建的开源E M R平台如何进行海量文本数据挖掘处理,同时介绍使用C loudera D esktop进行简单的大数据处理的过程。试验目的是将大数据处理的难点ETL过程交给开源E M R平台处理,数据分析过程使用传统方式,实现数据处理过程中的优势互补。测试数据为非结构化的文本文件。测试过程是将文本文件上传到开源E M R平台中,然后调用WordCount算法处理文本文件,最后将处理结果下载到本地做进一步分析。整个过程在图形化界面中通过简单的系统交互完成。

4.1 W ordCoun t算法

W or dCount[15]是一个经典的M ap/R educe的应用示例,它可以计算出指定数据集中每一个单词出现的次数,是文本数据挖掘处理中的基础部分和算法之一。在测试过程中,W or dCount算法将上传的非机构化文本处理为词和词频数据对。

4.2 大数据挖掘的关键步骤

以W ordCount算法为例,处理结果如图4所示:

图4 海量数据W ordCount算法处理结果示意图

(1)进入C l oudera D esktop主界面,默认登录用户是系统创建的H adoop用户。成功登入后,用户可以看到图3所示的界面:C loudera D esktop有4个主要功能模块,在界面右上角的Launch菜单中,包括C l uster H ealth Dashboard、F ile Bro wer、Job Bro wser以及Job D e signer。

(2)点击打开F ile Bro wer,在H adoop用户主目录中,创建数据上传目标文件夹I NPUT,并上传需要处理的文本数据,如图4中左边的文本就是测试中上传的文本文件内容,也可以是多个文本文件。

(3)点击打开Job D esi gner,激活系统默认的基础算法,复制并修改W ordCount算法的数据输入(I N P UT)和输出(随机命名输出文件夹名称,不能与已有文件夹重名,如使用OP+T m i e方式命名)参数,完成新W ordCount Job任务的创建。

(4)运行该Job任务,系统将自动创建OPT m i e文件夹,显示任务执行的进度和结果,并将最终数据处理结果保存到该文件夹中。用户还可以通过F ile Bro wser 查看结果数据或将结果集下载到本地系统进一步深入分析。如图4中右边的文件就是将处理结果下载到本地并排序后呈现的文本。

5 开源E M R架构优势分析

数据挖掘是适应信息社会从海量数据中提取有用信息的需要而产生的。现在,政府、企业都把数据看成宝贵的财富,纷纷利用数据挖掘技术发现其中隐藏的信息。亚马逊在2010年的H adoop峰会上表明其目前的数据挖掘业务比重非常大,并为提升其E M R服务将有显著的持续投入[16]。总体来说,除了数据保密性外,信息机构内部的开源EMR架构的应用很好地解决了如下几方面的问题:

(1)高效的网络存储和计算资源的控制利用,有效防止服务器蔓延,推动机构内部数据中心的绿色节能建设。通过虚拟技术将具有相类似的应用服务器整合到相对集中的资源池中,提高应用的稳定性和可用性,同时通过可视化监控界面动态配置、调整调度服务器及存储设备,提高计算资源的利用效率。

(2)加速分布式数据挖掘服务部署能力。通过分布式服务应用映像模板,用户可以根据数据挖掘的任务和数据规模,简单、灵活地创建和增减Hadoop服务器节点,形成规模合适的容错性强的H adoop集群,低成本快速完成数据挖掘任务。任务完成后,还可以快速收回计算资源给其他应用使用,深层次挖掘计算资源的可利用空间。

(3)大数据处理的简单化,开发方便。通过图形化H adoop平台管理界面,海量数据处理对专业数据分析人员来说不再是复杂的服务器集群软、硬件和数据挖掘算法的整合过程,系统屏蔽掉底层,数据分析师可以将主要精力放到数据挖掘算法上。这种大数据处理过程的简单化趋势将推动知识挖掘、发现的快速发展。

6 结语

本文通过分析亚马逊EM R海量数据处理平台构架,针对信息分析机构内部数据处理的迫切需求,提出通过开源技术X enServer和C l oudera版H adoop平台构建信息机构自己的动态可伸缩的海量数据处理平台并给出实施方案和文本数据处理案例。目前,开源E M R 平台在算法、多节点计算速度、实时数据处理、中文支持等方面还有很多限制和不足,这也是笔者下一步改进的方向。

参考文献:

[1]2010D i gital Un iverse Study[EB/OL].[2010-09-27].

http://gi gao m.files.wordpress.co m/2010/05/2010-digit al-u niverse-ivi ew_5-4-10.pd.f

[2]Am az on In troduces E l asticM apReduce(H adoop F ra m e w ork)Serv

i ce[EB/OL].[2010-09-27].h tt p://www.byt eon i c.co m/

2009/a m azon-i n trodu ces-el astic-m apreduce-H adoop-

fra m e w ork-serv i ce/.

[3]Am azon E lasti c M apReduce[EB/OL].[2010-09-26].

http://a w s.a m az on.co m/el astic m apredu ce/.

[4]C l oudera En terp ri se[EB/OL].[2010-09-27].h tt p://www.

C loudera.co m/produ cts-services/en terp ri se/.

[5]H adoop中国2009云计算大会[EB/OL].[2010-09-27].

http://L i nux.ch i naun i https://www.360docs.net/doc/5e3689383.html,/n e w s/2009/11/15/1144192.s h t m.l [6]Develop i ng App lications f or HUE[EB/OL].[2010-09-27].

http://www.C l oudera.co m/b l og/2010/07/develop i ng-app lica ti on s-f or-hue/.

[7]Pratt I,F raserK,H and S,et a.l Xen3.0and t he A rt ofV irt ualiza

ti on[EB/OL].[2010-09-27].h ttp://www.L i nuxsy m pos

i u https://www.360docs.net/doc/5e3689383.html,/2005/L i nuxsy m pos i um_procv2.pd.f

[8]Techn i cal and Co mm erci alC o m parison ofC i tri x XenServer and V M

w are[EB/OL].[2010-09-27].h tt p://www.ci tri x.co m/ s i te/res ources/dyna m ic/sal esdocs/XS_vs_V M w are_co m parison.

pd.f

[9]V M w are vSph ere[EB/OL].[2010-09-27].http://www.v m

w are.co m/p roducts/esx/.

[10]XenServer In st a ll ation Gu i de[EB/OL].[2010-09-26].

http://support.citri https://www.360docs.net/doc/5e3689383.html,/servlet/KbS erv l et/down load/18052-

102-19049/i nstallati on.pd.f

[11]H adoop C l uster Set up[EB/OL].[2010-09-26].h ttp://ha

doop.apach https://www.360docs.net/doc/5e3689383.html,/co mmon/docs/r0.20.0/cl us t er_s et up.h t m.l [12]H adoop5_m i nu te Qu i ck S t art[EB/OL].[2010-09-26].

http://n i gh tl y.cloudera.co m/docs-b ackup/hadoop_5_m i nu te_ quick_s t art.h t m.l

[13]H adoop添加节点的方法[EB/OL].[2010-09-26].http://

w enku.bai du.co m/vi e w/e57ff e3e0912a2161479291e.h t m.l [14]赵华茗,李春旺,周强.基于XenServer的数字图书馆云服务平

台实现研究[J].电信科学,2010,26(8A):33-38.

[15]H adoop M ap/Reduce Tu t ori al[EB/OL].[2010-09-27].

http://H https://www.360docs.net/doc/5e3689383.html,/comm on/docs/r0.18.2/m apred_tu tori a.l h t m.l

[16]Am az on E l asti c M apReduce U pdates fro m H adoop Summ it2010

[EB/OL].[2010-09-27].htt p://www.i nfoq.co m/ne w s/ 2010/07/a m az on-el asti c-m ap reduce-upd ates.

(作者E-m ai:l zhaohm@m ai.l https://www.360docs.net/doc/5e3689383.html,)

中石化云计算平台建设总体技术方案

中石化云计算平台工程技术方案二O一六年四月

目录第1章.基本情况6 1.1.项目名称6 1.2.业主单位6 1.3.项目背景6 1.3.1.XX技术发展方向6 1.3. 2.有关XX公开的相关要求7 1.4.建设规模7 1.5.投资概算10 1.6.设计依据10 1.7.设计范围10 1.8.设计分工11 第2章.现状及需求分析11 2.1.项目意义及建设必要性11 2.2.现状分析13 2.3.需求分析13 2.3.1.长期需求13 2.3.2.本期需求14 第3章.总体设计16 3.1.建设目标16 3.1.1.预期总目标16 3.1.2.阶段性目标17

3.2.建设内容18 3.3.系统的总体结构18 3.3.1.设计原则18 3.3.2.XX本土化战略错误!未定义书签。 3.3.3.建设思路20 3.3. 4.总体拓扑结构22 3.4.信息的分类编码体系25 3.5.质量保证体系26 第4章.建设方案27 4.1.网络资源池28 4.1.1.组网物理拓扑图28 4.1.2.网络负载均衡设计30 4.1.3.网络虚拟化设计32 4.1.4.IP地址及DNS规划36 4.1. 5.网络端口资源估算41 4.2.计算资源池41 4.2.1.计算资源池架构41 4.2.2.应用系统分析42 4.2.3.计算资源池建议配置与选型建议44 4.2.4.计算资源池部署47 4.2. 5.虚拟化软件选型分析48 4.3.云计算管理平台51

4.3.1.云资源管理平台建设方案52 4.3.2.云运营管理平台建设方案61 4.4.云计算安全防护方案71 4.4.1.云计算平台安全威胁71 4.4.2.云计算平台安全防护目标73 4.4.3.云计算平台安全架构74 4.4.4.IaaS层安全74 4.4. 5.PaaS层安全89 4.4.6.SaaS层安全90 4.4.7.公共安全92 4.4.8.安全管理制度98 4.4.9.云安全服务100 4.5.机房方案100 4.5.1.机房设备集中管理100 4.5.2.布线系统101 4.5.3.机房系统102 4.5.4.UPS配置方案104 4.6.标准化工作109 4.6.1.标准规范建设的原则109 4.6.2.标准规范的总体框架110 第5章.设备配置要求112 第6章.项目实施与运行维护117

数据挖掘试卷一

数据挖掘整理（熊熊整理-----献给梦中的天涯）单选题 1．下面哪种分类方法是属于神经网络学习算法？（） A. 判定树归纳 B. 贝叶斯分类 C. 后向传播分类 D. 基于案例的推理 2．置信度(confidence)是衡量兴趣度度量（ A ）的指标。 A、简洁性 B、确定性 C.、实用性 D、新颖性 3．用户有一种感兴趣的模式并且希望在数据集中找到相似的模式，属于数据挖掘哪一类任务？(A) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 4．数据归约的目的是（） A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 5．下面哪种数据预处理技术可以用来平滑数据，消除数据噪声？ A.数据清理 B.数据集成 C.数据变换 D.数据归约 6．假设12个销售价格记录组已经排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频（等深）划分时，15在第几个箱子内？(B) A 第一个 B 第二个 C 第三个 D 第四个 7．下面的数据操作中，（）操作不是多维数据模型上的OLAP操作。 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) 8．关于OLAP和OLTP的区别描述,不正确的是: (C) A. OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同. B. 与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务. C. OLAP的特点在于事务量大,但事务内容比较简单且重复率高. D. OLAP是以数据仓库为基础的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对的用户是相同的 9．下列哪个描述是正确的？（） A、分类和聚类都是有指导的学习 B、分类和聚类都是无指导的学习

几种常见云计算平台分析比较

云计算平台比较分析云计算按照应用层次，主要划分为IaaS、PaaS和SaaS三种层次的应用，这里主要分析常见的IaaS平台。目前市面上常见的IaaS应用主要有Amazon的AWS，基本上已经成为整个行业的标准。 IaaS在开源领域也是百花齐放，最著名的开源平台为：Eucalyptus、Openstack和Cloudstack、Opennebula、Nimbus，在国内社区比较火热的主要是前三种，所以在这里主要分析一下前三种平台。 1.云平台分析 1.1.Eucalyptus 1.1.1.概述 Elastic Utility Computing Architecture for Linking Your Programs To Useful Systems（Eucalyptus）是一种开源的软件基础结构，用来通过计算集群或工作站群实现弹性的、实用的云计算。它最初是美国加利福尼亚大学Santa Barbara计算机科学学院的一个研究项目，现在已经商业化，发展成为了Eucalyptus Systems Inc。不过，Eucalyptus 仍然按开源项目那样维护和开发。Eucalyptus Systems 还在基于开源的 Eucalyptus 构建额外的产品；它还提供支持服务。 Eucalyptus是在2008年5月发布1.0版本，在2009年与Ubuntu进行合作，成为Ubuntu server9.04的一个重要特性，目前最新版本是2.0.3，可以选择Xen、KVM作为虚拟化管理程序，对vSphere ESX/ESXi提供了支持。 Eucalyptus主要是用C和Java开发的，其中CLC是由java完成的，Tools 是由perl完成的，其他的都是C完成的。

云计算资源池的构建讲课稿

云计算资源池构建必须考虑的五个问题近日，IDC发布最新中国云计算市场的研究报告。报告显示，2011年中国用户为建设云计算基础架构的投资已经达到2.86亿美元，同比增长42.0%。IDC 预计，中国云计算基础架构市场还将保持高速发展，到2016年其规模将超过10亿美元。可见，建设云计算基础架构已经成为许多企业的计划。构建一个合理的资源池，是实现从传统的“烟囱式IT”迈向云计算基础架构的第一步。在传统的“烟囱式IT”基础架构中，应用和专门的资源捆绑在一起，为了应对少量的峰值负载，往往会过度配置计算资源，导致资源利用率低下，据统计，在传统的数据中心里，IT资源的平均利用率不到20%。构建资源池也就是通过虚拟化的方式将服务器、存储、网络等资源全面形成一个巨大的资源池。云计算就是基于这样的资源池，通过分布式的算法进行资源的分配，从而消除物理边界，提升资源利用率，统一资源池分配。图传统的“烟囱式”IT结构中，应用与固定的资源绑定作为云计算的第一步，资源池的构建在实现云计算基础架构的过程中显得尤为重要，只有构建了合理的资源池，才能实现云计算的最终目的——按需动态分配资源。那么，在借助虚拟化手段构建资源池时，需要考虑哪些问题?通过与一

些已经或正在实施云计算的企业用户交流时发现，在搭建云计算资源池时，如下五个问题是必须要考虑的。当然，除了这些问题之外，还有其他需要考虑的问题，需要视情况而定。底层软硬件平台的可靠性要搭建虚拟资源池，首先需要具备物理的资源，然后通过虚拟化的方式形成资源池。一个物理服务器可以虚拟出几个甚至是几十个虚拟的服务器，每一个虚拟机都可以运行不同的应用和任务。听到这里，可能很多用户都会感觉到某种危险性，要是这一个物理服务器崩溃了，那这个物理机上的所有虚拟机以及虚拟机上的应用都会受到影响甚至是崩溃(当然，可以去做实时的动态迁移，这是我们后面要谈到的话题)。这就好比是把许多鸡蛋放在一个篮子里，篮子破了，所有的鸡蛋都会摔碎。这对于许多连续性要求较高的用户来说，比如金融、电信等行业的用户，是无法接受的。为了降低“鸡蛋”全部摔碎的风险，企业用户必须要保证“篮子”的质量。也就是硬件资源(服务器、存储、网络等)的安全性、稳定性。民族证券信息部主任颜阳表示，“证券行业的核心业务对于业务连续性要求很高，一秒钟的中断都会带来巨大的损失，因此，在搭建资源池的时候，必须要考虑到硬件平台的可靠性”。资源粒度最小化 “医疗信息化是配合业务流程的，比较复杂，并且跟人的生命健康息息相关，因此云计算平台的安全性十分重要，我们希望把每个元素都放到最小的粒度，打造出与业务流程十分契合的医疗云平台”，首都医科大学附属北京儿童医院信息中心主任孙宏国表示。

开源私有云搭建方案

开源私有云搭建方案本文阐述了开源软件构建基于Eucalyptur架构提供IaaS服务的私有云提供了一种设计搭建方案，并详细描述了使用开源操作系统Ubuntu Server具体的实施过程。这种设计具有快速、简单、费用少、维护简单特点，并可在合适的时候迁移到公有云上。这是由资料站为您提供的开源私有云搭建方案，希望这些对您有所帮助！云计算带来一场计算环境的变革，把传统的软件安装、许可证的发布变成了通过Internet获取的所需服务。比如，微软office365就是基于云的办公应用软件，用户再也不需要直接购买和安装;在Facebook社交网站，上传视频也是通过使用云存储服务来实现的，这样大大降低了用户的硬件成本。 1、云计算提供的服务和实现技术 1.1云计算机提供服务云计算是一种通过Internet以服务的方式提供动态可伸缩的虚拟化的资源的计算模式?，是一个无处不在、便利、按需的可通过网络访问的一池共享可配置的资源的一种模式，只要较少操作，就能持有者快速提供网络、服务器、存储、应用和服务。云的类型有公有云、私有云和混合云，公有云通过互联网为所有的用户提供资源，私有云通过互联网上为一个组织的内部用户提供资源，混合云通过互联网根据不同用户提供相应的资源。云计算服务包括：IaaS、SaaS和PaaS，IaaS(基础设施即服务)通过导航方式向用户提供基于云的服务包括：虚拟机、块存储、防火墙、负载平衡和网络;PaaS(平台即服务)通过互联网向用户提供操作系统、应用开发平台(如微软的https://www.360docs.net/doc/5e3689383.html,)：SaaS(软件即服务)通过互联网把软件(如ERP、CRM)提供给用户，这些由SasS提供的软件已经获得了较大的收益。 1.2云计算实现的关键技术虚拟化技术是实现云计算的关键，IaaS(基础设施即服务)是一个在云环境中提供虚拟化设置创建多个工作站的基础。在计算环境中，虚拟化意味着对一个设备或一个资源创建一个版本，如服务器、存储装置、网络甚至操作系统，在这个架构里，把这些资源分成一个或多个执行环境管理程序，也被称为虚拟机监控程序(VMM)，VMM是许多硬件虚拟化技术中的一种，它允许多被称为客户机的操作系统并发运行在主机上。VMM有2种模式，裸金属模式和主机模式;裸金属模式Hypervisor(虚拟机管理器)是提供虚拟分区方法的薄的软件层，它直接运行在硬件上，如CitrixXenServer、VMwareESX/ESXi。主机模式Hypervisor(虚拟机管理器)是一种分区和虚拟化服务都运行在主机操作系统顶层的虚拟化技术，如：基于核心的虚拟机KVM、VMwarep 和VirtualBox。目前所使用的虚拟化方式有2种：完全虚拟化及半虚拟化。完全虚拟化提供完整的相关计算机硬件模拟，软件能够不经任何修改运行。由于它使计算资源最大的使用和伸缩，多个操作系统能够同时运行在相同的硬件上，对于云计算来说，完全虚拟化被认为是一个关键的技术。对于云计算来说，完全虚拟化能够增加操作的有效性，因为它能优化计算机负载和调整使用中的服务器数量来满足需要，从而能源和信息资源。所使用的全虚拟化的仿真包有

大型企业如何搭建私有云计算平台

大型企业如何搭建私有云计算平台私有云走向成熟大型企业如何搭建私有云计算平台云计算已经成为当前最流行的IT概念之一，越来越多的大型企业开始考虑如何用云计算平台来构建自己的信息系统。云计算平台具有高可扩展性、超大规模、高可用性、成本低廉等特点，因此如何利用云计算搭建企业信息化平台成为当前的热门话题。但是对于云计算如何落地、企业如何利用云计算平台，特别是大型企业可利用哪些云计算搭建企业信息化平台，并没有一个清晰的答案。本文依据云计算的基本概念，特别是私有云的建设，以虚拟化未基础，以构建企业级计算虚拟化池和存储虚拟化池未目标，搭建企业云计算平台，并给出了当前比较成熟的几个厂商的解决方案。私有云也有前景云计算(Cloud Computing)并没有一个严格的定义，不同的公司出于不同的目的，都给出了不同的概念，比如谷歌、亚马逊、IBM、Oracale、微软等都有不同的定义和不同的商业模式。一般来说，云计算是网格计算、分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡等计算机技术和网络技术发展融合的产物。云计算是一种新的应用模式，按照通常的定义，云计算不仅仅是技术上的新模式，还包括商务上的新模式，比如用户可以不用再购买设备，而是仅仅购买服务就可以支撑IT信息系统需要。当前大家关注得比较多的是这种可购买服务的公共云的建设，公共云油服务提供商为客户提供，用户的计算应用可像日常生活中的自来水和电一样即开即用，而不需要自己去修建自来水厂和发电厂。对于中小企业来说，公共云是一个不错的选择，云计算服务提供商提供晕计算平台，中小企业不需要自己建设数据中心，不用关心虚拟化、网格等方面的技术难点，只要选择一个信得过的云计算服务提供商就可以了。但是对那些想利用云计算平台特性、对安全性要求比较高、不想把应用外包的大型企业来

大数据相关开源系统简介汇总

大数据相关开源系统简介汇总本片博客介绍大数据相关的开源系统以及他们对应的一句话简介, 对于各位想大概了解大数据都有哪些开源系统的同学有帮助。各种相关开源系统简介：如下是Apache基金支持的开源软件 hdfs 跟GFS类似, 一个分布式文件系统。 mapreduce 跟Google的MapReduce类似, 一个典型的简单的分布式计算框架。 yarn 资源管理系统, 跟Mesos类比。 Avro 跟PB类似, 用于将数据结构序列化成字节码, 在不同的语言之间切换。官方举例是将C转换给Pig。 BigTop 一个给Hadoop打包和测试的软件。其本来是cloudera公司自己给自己写的一个方便OP部署和搭建环境的工具, 不过因为写得不错, 已经成为了Apache顶级项目。目前支持系列Hadoop生态链中的软件: Zookeeper, Flume, HBase, Pig, Hive, Sqoop, Oozie, Whirr, Mahout, SolrCloud, Crunch, DataFu and Hue Chukwa 收集各种实时监控数据(比如日志)并固化到HDFS上的事情。 Drill Google的Dremel的开源版本。PB以上数据实时秒级查询。 Flume 用来做数据迁移的工具。支持数据包括Avro, files, 系统日志, 落地的系统包括HDFS, HBase。

HBase Google的BigTable的开源版本。宽列存储, 底层基于HDFS。 HCatalog 为HDFS做的一个管理metadata的系统。基于Hive, 提供服务给MapReduce, Pig, 将来会支持HBase。 Hive 支持HSQL, 将SQL转换成MapReduce任务。 Mahout 一个数据挖掘, 机器分析的算法库。 Oozie 用来管理Hadoop中的多轮任务的工具, 类似DAG管理工具。 Tez 也是多个任务的DAG管理工具, 但是其做得更底层，直接替代了MR的调度程序，多个任务之间的数据传递不用再落地到hdfs上了。 Pig 跟Hive类似, 提供比裸写MR更友好的界面, 然后翻译成MapReduce。只是Hive提供的是SQL, Pig提供的是更高级别的语言Pig-Latin, 供用户做数据挖掘和分析。 Sqoop Sql-to-Hadoop。将关系型数据库中的数据导入到Hadoop当中。 ZooKeeper 提供高可用的存储服务。内部采用paxos一致性协议。 Whirr 用于将Hadoop放到各种IaaS里面去运行的环境部署类项目。 Crunch

云平台建设方案

云平台建设方案 1、配置满足当前（2014）年度，硬件投入需求 2、一定的扩展能力，10台4路，10台2路可迁移系统 3、应用包括（DB、中间件；开发、测试、验收和上线环境）移动平台 1、规则引擎数据库、中间件健康险平台2、统计分析中间件能力提升年，提高信息系统支持能力；影像系统3、OA中间件、数据库 1、计算投资管理系统 2、存储稽核审计系统 3、网络GPS查勘调度系统资金管理系统方案对比：费控系统硬件对比人力资源系统软件对比：vmware、Huawei FusionCompute 河南农户电子档案非车险承保理赔系统改造第一类系统（即短时间中断会造成重大社会影响或影响保险机构关键业务功能，并造成重大经济损失的信息系统）包括核心系统及相关子系统。具体有：核心业务（含影像资料）、规则引擎、农险电子档案、保协车险共享平台、广域网络专线和96999客服专线。第二类系统（即短时间中断会造成较大社会影响或影响保险机构部分关键业务功能，并造成较大经济损失的信息系统）包括核心业务系统支撑平台。具体有：统计分析、精友车型数据、保单自助查询、短信平台。第三类系统（即间接支持关键业务功能或保险机构对系统中断具有一定容忍度的信息系统）包括OA办公自动化、邮件、网站、GIS系统、移动查勘等。云平台建设方案（讨论稿）信息化经历了T-S模式（终端-主机）、C-S模式（PC时代客户机-服务器）、B-S模式（互联网时代浏览器-服务器）；新时代以服务的方式被发布和访问的“云计算”模式；为响应国家节能减排的号召，

减少公司信息化硬件重复投资，增强数据中心的运维和安全管理，构建高可用的新一代数据中心，我们将云平台建设纳入议事日程。 201X年公司面临再一次的职场搬迁，有了2012年职场搬迁网络实现无缝切换的经验，我部将以新职场中心机房建设为契机，构建云计算架构的数据中心，在保障业务平滑迁移的基础上，以实现IT 资源的大整合、数据中心的大集中。根据私有云建设的规律，我们将云平台建设分三个阶段：第一阶段：落地云设备，实现计算资源虚拟化、存储资源虚拟化和网络资源虚拟化，建设周期2～3个月；第二阶段：落地云平台，对现有业务环境进行梳理，在云平台上部署轻量级数据库、中间件环境，实现部分业务系统的迁移，建设周期1～2个月；第三阶段：建设云平台的灾备系统，具体建设时间根据新职场搬迁计划等实际情况待定。本次建设方案为第一二阶段。第一阶段：落地云设备实现计算资源虚拟化、存储资源虚拟化和网络资源虚拟化第二阶段：落地云平台对现有业务环境进行梳理，在云平台上部署轻量级数据库、中间件环境，实现部分业务系统的迁移

10 大顶级开源 ERP 系统

10 大顶级开源ERP 系统 https://www.360docs.net/doc/5e3689383.html,/news/27558 企业资源规划（ERP）和客户关系管理（CRM）系统现在已经成为各种组织和企业的必需品，通过它们，可以轻松实现企业的信息数据标准化、系统运行集成化、业务流程合理化、绩效监控动态化、管理改善持续化。本文将为你介绍10种顶级的开源ERP软件，它们都可以在网上免费下载到。 1. OpenERP 当提到开源ERP软件时，OpenERP是无可争议的重量级冠军。OpenERP开发的初衷是为了提供SAP、Microsoft Dynamics等商业ERP软件的开源替代产品。 OpenERP功能涵盖财务管理、采购/销售管理、库存管理、MRP、CRM、人力资源管理、销售点管理、项目管理等众多方面。 OpenERP使用Python开发，数据库采用开源的PostgreSQL，它的核心和所有模块都是开放源代码的，采用GNU GPL开源协议。你可以自由使用、修改和发布，只要你也保证开源即可。 2. Openbravo

Openbravo ERP是一套适合于中小企业并且基于web可扩展的ERP系统。这个ERP系统所包括的功能可实现生产管理、仓库管理、销售管理、财务管理。同时内置CRM（客户关系管理）和BI（商业智能）。 3. Apache OFBiz OFBiz是Apache的顶级开源项目，提供了创建基于最新JavaEE/XML规范和技术标准，构建大中型企业级、跨平台、跨数据库、跨应用服务器的多层、分布式电子商务类Web应用系统的框架。 OFBiz不仅是一个产品及订单管理系统，它还提供了一整套功能，涵盖企业所需的方方面面。除了管理产品及其相关内容（如电子商店）外，Apache OFBiz还能履行许多其它重要角色，包括客户关系管理、项目进度、计费管理、人力资源管理以及订单管理。 4. Compiere Compiere是全球著名的开源ERP（集成CRM）企业应用解决方案，适用于全球范围的市场。通过Compiere，你只需短短几小时就可以使用申购-采购-发票-付款、报价-订单-发票-收款、产品与定价、资产管理、客户关系、供应商关系、员工关系、财务管理、经营业绩分析等强大功能了。

云计算平台建设总体技术方案

云计算平台建设总体技术方案第1章.基本情况 1.1. 项目名称 XX单位XX云计算平台工程。 1.2. 业主单位 XX单位。 1.3. 项目背景 1.3.1. XX技术发展方向 XX，即运用计算机、网络和通信等现代信息技术手段，实现政府组织结构和工作流程的优化重组，超越时间、空间和部门分隔的限制，建成一个精简、高效、廉洁、公平的政府运作模式，以便全方位地向社会提供优质、规、透明、符合国际水准的管理与服务。随着网络技术、web2.0、下一代互联网等技术的发展，我国XX建设也发生着变化。2010年10月，国务院发布了《国务院关于加快培育和发展战略性新兴产业的决定》，就把新一代信息技术产业作为十二五时期的重点方向，要推动新一代移动通信、下一代互联网核心设备和智能终端的研发及产业化，加快推进三网融合，促进物联网、云计算的研发和示应用。

1.3. 2. 有关XX公开的相关要求全国XX领导小组发布了《关于开展依托XX平台加强县级政府XX和政务服务试点工作的意见》，就开展依托XX平台加强县级政府XX和政务服务试点工作提出了相关意见。要求在试点县（市、区），用一年左右时间，建立和完善统一的XX平台，充分利用平台全面、准确发布政府信息公开事项，实时、规办理主要行政职权和便民服务事项，并实现电子监察全覆盖，为在全国全面推行奠定基础、积累经验。 1.4. 建设规模本期建设规模为（后续根据实际服务器及机房环境进行调整）：

1.5. 投资概算本项目本期工程概算总投资为XXXX万元（人民币）。 1.6. 设计依据《中华人民国国民经济和社会发展第十二个五年规划纲要》；《计算机场地技术条件》（GB2887-89）《计算站场地安全要求》（GB9361-88）《电子计算机机房设计规》（GB50174-93）《供配电系统设计规》（GB50052-92）《低压配电装置及线路设计规》（GBJ—83）《建筑物防雷设计规》（GB50057-94）《电子设备雷击保护守则》（GB7450-87）《工业企业通信接地设计规》（GBJ79-95）《中华人民国标准》（BMB3-1999）《涉密信息设备使用现场的电磁泄漏发射防护要求》（BMZ1-2000）《涉及国家的计算机信息系统技术要求》（BMZ1-2000）《涉及国家的计算机信息系统安全方案设计指南》（BMZ2-2001）《涉及国家计算机信息系统安全测试指南》（BMZ3-2001） 1.7. 设计围本方案涉及围包括以下几个部分：（1）基本情况；

基于开放式云平台的开源在线评测系统设计与实现

第３９卷　第１１Ａ期２０１２年１１月计算机科学Ｃｏｍｐｕｔｅｒ　ＳｃｉｅｎｃｅＶｏｌ．３９Ｎｏ．１１ＡＮｏｖ　２０１２本文受浙江传媒学院《程序设计类教学辅导平台设计与开发》教改项目，ＨＵＳＴＯＪ社区用户资助。张浩斌（１９８０－），男，硕士，讲师，主要研究领域为计算机应用技术、互联网应用技术，Ｅ－ｍａｉｌ：ｎｅｗｓｃｌａｎ＠ｇｍａｉｌ．ｃｏｍ。基于开放式云平台的开源在线评测系统设计与实现张浩斌（浙江传媒学院新媒体学院　杭州３１００１８）　摘　要　从应用角度出发，设计并开发了基于开放云平台的开源在线评测系统。该系统从系统实现、系统搭建、平台运维及题目的获得等诸多方面解决了大学和科研机构搭建在线评测系统的困难。从理论上论证并用实际代码和实际系统检验了系统的可行性，开放了全部源代码，为在线评测系统的改进找到了新途径。关键词　在线评测系统，分布式系统，开放式云平台，开源软件，ＸＭＬ中图法分类号　ＴＰ３９１．７６文献标识码　Ａ　Ｄｅｓｉｇｎ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　ｔｈｅ　Ｏｐｅｎ　Ｃｌｏｕｄ　Ｐｌａｔｆｏｒｍ　Ｂａｓｅｄ　Ｏｐｅｎ　Ｓｏｕｒｃｅ　Ｏｎｌｉｎｅ　Ｊｕｄｇｅ　ＳｙｓｔｅｍＺＨＡＮＧ　Ｈａｏ－ｂｉｎ（Ｄｅｐａｒｔｍｅｎｔ　ｏｆ　Ｎｅｗ　Ｍｅｄｉａ，Ｚｈｅｊｉａｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｍｅｄｉａ　ａｎｄ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ，Ｈａｎｇｚｈｏｕ　３１００１８，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ　Ｄｅｓｉｇｎｅｄ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔｅｄ　ｔｈｅ　ｏｐｅｎ　ｃｌｏｕｄ　ｐｌａｔｆｏｒｍ　ｂａｓｅｄ　ｏｐｅｎ　ｓｏｕｒｃｅ　ｏｎｌｉｎｅ　ｊｕｄｇｅ　ｓｙｓｔｅｍ　ｆｒｏｍ　ｔｈｅ　ａｐｐｌｉｃａ－ｂｌｅ　ｖｉｅｗ．Ｔｈｅ　ｓｙｓｔｅｍ　ｒｅｓｏｌｖｅｄ　ａ　ｓｅｔ　ｏｆ　ｐｒｏｂｌｅｍｓ　ｉｎ　ｄｅｐｌｏｙｉｎｇ　ｏｎｌｉｎｅ　ｊｕｄｇｅ　ｓｙｓｔｅｍ　ｂｙ　ｕｎｉｖｅｒｓｉｔｉｅｓ　ｏｒ　ｒｅｓｅａｒｃｈ　ｉｎｓｔｉｔｕ－ｔｉｏｎｓ，ｗｈｉｃｈ　ｉｎｃｌｕｄｅｄ　ｉｍｐｌｅｍｅｎｔｉｎｇ，ｄｅｐｌｏｙｉｎｇ，ｍａｉｎｔｅｎａｎｃｅ　ａｎｄ　ｑｕｅｓｔｉｏｎｓ　ａｃｑｕｉｒｉｎｇ．Ｄｉｓｃｕｓｓｅｄ　ｔｈｅ　Ｆｅａｓｉｂｉｌｉｔｙ　ｔｈｅｏｒｅｔｉ－ｃａｌｌｙ　ａｎｄ　ｐｒｏｖｅｄ　ｉｔ　ｂｙ　ｒｕｎｎｉｎｇ　ｃｏｄｅｓ　ａｎｄ　ａｐｐｌｉｃａｂｌｅ　ｓｙｓｔｅｍ．Ｂｙ　ｒｅｌｅａｓｉｎｇ　ａｌｌ　ｔｈｅ　ｓｏｕｒｃｅ　ｃｏｄｅ，ｐｒｏｖｉｄｅｄ　ａ　ｎｅｗ　ｗａｙ　ｔｏ　ｉｍ－ｐｒｏｖｅｍｅｎｔ　ｏｎｌｉｎｅ　ｊｕｄｇｅ　ｓｙｓｔｅｍ．Ｋｅｙｗｏｒｄｓ　Ｏｎｌｉｎｅ　ｊｕｄｇｅ，Ｄｉｓｔｒｉｂｕｔｉｏｎ　ｓｙｓｔｅｍ，Ｏｐｅｎ　ｃｌｏｕｄ　ｐｌａｔｆｏｒｍ，Ｏｐｅｎ　ｓｏｕｒｃｅ　ｓｏｆｔｗａｒｅ，ＸＭＬ　１　在线评测系统的现状与应用难点在线评测系统（Ｏｎｌｉｎｅ　Ｊｕｄｇｅ，ＯＪ）起源于国际大学生程序设计竞赛（ＡＣＭ／ＩＣＰＣ），是一种采用黑盒测试原理进行计算机程序正确性判断的自动化程序［１］。该系统具有比赛公平性好、评测自动化程度高、节约人力成本等优点，广泛应用于各类计算机程序设计比赛和教学［２］。在线评测系统既可以指该系统的源码，也可以指该系统运行的一个实例。从信息系统的角度看，由于在线评测系统安装、维护上的难度，应当将系统软件整个生命周期中的所有软硬件资源和参与的管理员、用户综合起来，认为它们都是系统的一部分。从这个角度来说，目前的在线评测系统仍然存在以下缺点。１．１　系统程序的获得困难在线评测系统的设计和开发涉及到操作系统进程调度、Ｗｅｂ界面、数据库管理、大规模并发访问等诸多方面的计算机应用技术。该系统开发难度大、要求高，而且设计上一旦存在漏洞将严重危害系统安全；许多学校在自行过开发后，都因为各种原因而没有得以大范围应用。国内少数高校开发和使用的系统，虽然对系统源代码进行了开放，但是由于文档不足且缺乏技术支持，其源码很难进行二次利用，应用范围也非常有限，许多只有源码没有文档的系统因为难于安装配置而无法推广。１．２　系统平台的搭建困难国内外在线评测系统普遍基于Ｌｉｎｕｘ平台进行开发，在给开发带来便利的同时，也给系统的使用带来巨大障碍。虽然近几年国内的Ｌｉｎｕｘ社区发展迅速，但是由于盗版的根深蒂固和计算机教育对Ｗｉｎｄｏｗｓ系统的全面迎合，国内高校真正能够熟练使用Ｌｉｎｕｘ操作系统平台的教师和学生并不多，即使取得了系统程序的源代码，也很难实际部署成功。１．３　系统运行与维护的困难在线评测系统因为需要实时对使用者提交的源代码进行编译、运行、监控，同时又要完成大量Ｗｅｂ请求的并发访问，所以对服务器系统的性能要求极高。普通的计算机服务器虽然可以进行小规模的练习，但对于在线人数成百上千的大型比赛就无力应对。虽然可以对Ｗｅｂ服务器、数据库服务器、判题服务器进行分机运行，实现简单的分布式计算，但是对于普通大学和科研机构，购买数量繁多的服务器又是一个经济上难以承受的负担。１．４　练习题目获得的困难因为在线评测系统基于黑盒测试技术，所以测试数据对于题目而言就是必不可少的基本要素。目前许多高校的在线评测系统对外提供题目查看，但是其测试数据都严格保密。目前，在线评测系统使用上的便利性一定程度上是建立在题目编写的困难性之上的，即使是一流大学的教授编写一道新题目也要付出非常艰辛的劳动。这就是像北大这样的一流大 · ９３３·

云架构IBMS

IB-CLOUD VS IBMS 智慧建筑云平台与IBMS技术对比南京古河软件有限公司

>概述古河智慧建筑集成管理云平台简称：IB-CLOUD 行业内的智能建筑集成管理系统简称：IBMS

系统架构不同 REST架构SOA架构 IB-CLOUD IBMS 简要技术评析： SOA架构是面向服务的体系结构，REST架构对应可以理解为面向资源的架构，REST与SOA相比具有更细的信息颗粒度，更加适合共享资源，在REST规范中每个资源都有唯一的URL对应，认证用户获取资源非常方便，而且也是目前跨平台的事实标准。

运行环境不同 IB-CLOUD IBMS 支持Docker的 Linux云服务器Windows分布式服务器简要技术评析：云服务器是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的Linux 机器上，也可以实现虚拟化。软件云端部署是未来的趋势。

用户认证授权方式不同 IB-CLOUD IBMS 采用OAuth2.0 规范开放式授权采用简单的用户认证方式简要技术评析： OAuth2.0规范的用户认证授权服务系统，OAuth（Open Authorization，开放授权）是为用户资源的授权定义了一个安全、开放及简单的标准，第三方无需知道用户的账号及密码，就可获取到用户的授权信息，并且这是安全的。百度、微信、微博都在使用这一协议授权。

信息交互技术不同 IB-CLOUD IBMS 采用消息通知云服务GH-MNS 采用TCP自定义协议通讯简要技术评析：消息通知云服务系统是云平台的核心软件，部署于云端，用于各个系统软件的消息交互。 GH-MNS 完全兼容阿里云的MNS，采用与阿里云相同的REST规范，相同的HTTP RESTful 接口。GH-MNS具有系统解耦，支持海量并发，保证送达消息的优点。

如何搭建云计算平台

如何搭建云计算平台规划是构建云计算解决方案重要的第一步。在规划时，需要对当前数据中心资产和运行流程创建完整的文档，需要描述数据中心中现有的设备之间的关系并考虑如何部署未来的新设备。由于环境十分复杂，企业会指派不同的人员维护数据中心中不同的数据。需要了解所有不同角色与数据中心设备之间的交互过程，角色之间责任重叠。企业的高层决策者需要参与整个计划的过程并做出决策。数据中心的完整资产信息数据中心中包括大量的服务器和设备，首先需要收集这些硬件资产的信息，以及这些资产之间的关系。资产之间的关系对于计划非常重要。这里举例来看一个服务器和网络之间的关系：通过一个逻辑定义的 IP 地址访问服务器必须在操作系统中定义一个网络接口才能定义 IP 地址

服务器中必须有一个物理网卡来支持操作系统中定义的网络接口网卡具有特定的属性，例如 MAC 地址，用来通过物理链路和数据中心内的其他设备连接网卡必须连接到交换机的一个端口上交换机也拥有自己的关系，例如端口属于哪一个模块，交换机之间的连接关系绘制业务数据流在将设备逻辑关系文档化后，为了确定可以实现自动化部署的部分，正确理解配置这些设备的流程非常重要。另外了解设备在业务功能上的用途也很重要。根据这些信息，我们基本可以确定数据中心的基础构架，例如路由器、交换机、数据库服务器和负载均衡器这些设备的变动比较少，而且配置方式比较特殊，因此不适合使用自动化部署。而应用服务器通常使用相同的硬件并且经常发生变动，根据我们收集的信息分析来看比较适合使用自动化部署。了解手工部署流程将数据中心设备当前的结构和使用情况文档化后，还要将管理数据中心的 IT 流程文档化。这样就可以将设备

数据挖掘流程模型CRISP-DM

CRISP-DM 1.0 数据挖掘方法论指南 Pete Chapman (NCR), Julian Clinton (SPSS), Randy Kerber (NCR), Thomas Khabaza (SPSS), Thomas Reinartz (DaimlerChrysler), Colin Shearer (SPSS) and Rüdiger Wirth (DaimlerChrysler)

该手册描述了CRISP-DM（跨行业数据挖掘标准流程）过程模型，包括CRISP-DM的方法论、相关模型、用户指南、报告介绍，以及一个含有其他相关信息的附录。本手册和此处的信息均为CRISP-DM协会以下成员的专利：NCR Systems Engineering Copenhagen (USA and Denmark), DaimlerChrysler AG (Germany), SPSS Inc. (USA) and OHRA Verzekeringen en Bank Groep B.V (The Netherlands)。著作权? 1999, 2000 本手册中所有商标和服务标记均为它们各自所有者的标记，并且为CRISP-DM协会的成员所公认。

前言 1996年下半年，数据挖掘市场尚处于萌芽状态，CRISP-DM率先由三家资深公司共同提出。DaimlerChrysler (即后来的Daimler-Benz) 在其商业运营中运用数据挖掘的经验颇为丰富，远远领先于其他大多数商业组织。SPSS（即后来的ISL）自1990年以来一直致力于提供基于数据挖掘的服务，并于1994年推出了第一个商业数据挖掘平台——Clementine。至于NCR，作为对其Teradata数据仓库客户增值目标的一部分，它已经建立了数据挖掘顾问和技术专家队伍以满足其客户的需要。当时，数据挖掘所引起的市场关注开始表明其进入爆炸式增长和广泛应用的迹象。这既令人兴奋又使人害怕。随着我们在这条路上不断走下去，所有人都不断研究和发展数据挖掘方法。可是我们做的是否正确?是否每一个数据挖掘的新使用者都必须像我们当初一样经历反复试验和学习？此外，从供应商的角度来看，我们怎样向潜在客户证明数据挖掘技术已足够成熟到可以作为它们商业流程的一个关键部分？在这种情况下，我们认为急需一个标准的流程模型——非私人所有并可以免费获取——向我们和所有的从业者很好的回答这些问题。一年后我们组建了联盟，名字CRISP-DM取自CRoss-Industry Standard Process for Data Mining的缩写，由欧洲委员会提供资助，开始实施我们最初的想法。因为CRISP-DM的定位是面向行业、工具导向和面向应用的，所以我们明白必须“海纳百川，博采众家之长”，必须在一个尽可能宽的范围内吸引人们的兴趣（比如数据仓库制造商和管理咨询顾问）。于是我们决定成立CRISP-DM 专门兴趣小组（即大家所知道的“The SIG”）。我们邀请所有感兴趣的团体和个人到阿姆斯特丹参加为期一天的工作会议，讨论并正式成立SIG组织：我们观念共享，鼓励与会者畅所欲言，为发展CRISP-DM共商大计。当天每个协会成员都心怀惴惴，会不会没有人对CRISP-DM有足够的兴趣？即使有，那他们是否认为实际上并未看到一种对标准化流程的迫切需求？或者我们的想法迄今为止与别人的步调不一致，任何标准化的念头只是不切实际的白日梦？事实上，讨论的结果大大超出了我们的期望。下面三点最为突出：当天的与会人数是我们原先期望的两倍行业需要而且现在就需要一个标准化流程——大家压倒性的一致同意每个出席者从他们的项目经验出发陈述了自己关于数据挖掘的看法，这使我们越来越清晰地看到：尽管表述上有些区别——主要是在阶段的划分和术语方面，但在如何看待数据挖掘流程上大家具有极大的相似之处。在工作组结束的时候，我们充满了自信，受SIG的启发和批评，我们能够建成一个标准化流程模型，为数据挖掘事业作出贡献。接下来的两年半里，我们努力工作来完善和提炼CRISP-DM。我们不断地在Mercedes-Benz、保险部门的伙伴及OHRA的实际大型数据挖掘项目中进行尝试。同时也运用商业数据挖掘工具来整合CRISP-DM。SIG证明了是无价的，其成员增长到200多，并且在伦敦、纽约和布鲁塞尔都拥有工作组。到该项目的欧洲委员会支持基金部分结束时——1999年年中，我们提出了自己觉得质量优良的流程模型草案。熟悉这一草案的人将会发现，一年以来，尽管现在的CRISP-DM1.0更完整更好，但从根本上讲并没有什么本质不同。我们强烈地意识到：在整个项目中，流程模型仍然是一个持续进行的工作；CRISP-DM还只是在一系列有限的项目中得到证实。过去的一年里，DaimlerChrysler有机会把CRISP-DM运用于更为广阔的范围。SPSS和NCR的专业服务团体采纳了CRISP-DM，而且用之成功地完成了无数客户委托，包括许多工业和商业的问题。这段时间以来，我们看到协会外部的服务供应商也采用了CRISP-DM；分析家不断重复地提及CRISP-DM

开源云计算平台

开源云计算平台编辑分类 (1)AbiCloud (Abiquo公司) AbiCloud 是一款用于公司的开源的云计算平台，使公司能够以快速、简单和可扩展的方式创建和管理大型、复杂的IT基础设施(包括虚拟服务器、网络、应用、存储设备等)。Abiquo公司位于美国加利福尼亚州红木市，它提供的云计算服务包括为企业创造和管理私人云服务、公共云服务和混合云服务，能让企业用户把他们的电脑和移动设备中的占据大量资源的数据转移到更大、更安全的服务器上。 (2)Hadoop(Apache基金会) 该计划是完全模仿Google体系架构做的一个开源项目，主要包括Map/Reduce 和HDFS文件系统 (3)Eucalyptus 项目(加利福尼亚大学) 创建了一个使企业能够使用它们内部IT资源(包括服务器、存储系统、网络设备)的开源界面，来建立能够和Amazon EC2兼容的云 (4)MongoDB(10gen) MongoDB是一个高性能、开源、无模式的文档型数据库，它在许多场景下可用于替代传统的关系型数据库或键/值存储方式。mongodb由C++写就，其名字来自humongous这个单词的中间部分，从名字可见其野心所在就是海量数据的处理。关于它的一个最简洁描述为:scalable, high-performance, open source, schema-free, document-oriented database。 (5)Enomalism弹性计算平台

它提供了一个功能类似于 EC2的云计算框架。Enomalism基于 Linux，同时支持 Xen 和 Kernel Virtual Machine(KVM)。与其他纯IaaS 解决方案不同的是，Enomalism提供了一个基于 Turbo Gears Web应用程序框架和 Python 的软件栈 (6)Nimbus(网格中间件Globus) Nimbus面向科学计算需求，通过一组开源工具来实现基础设施即服务(IaaS)的云计算解决方案[1] 。商业化云计算平台 (1)微软技术特性:整合其所用软件及数据服务核心技术:大型应用软件开发技术企业服务:Azure平台开发语言:.NET (2)Google 技术特性:储存及运算水平扩充能力核心技术:平行分散技术MapReduce，BigTable，GFS 企业服务:Google AppEngine，应用代管服务开发语言:Python，Java (3)IBM 技术特性:整合其所有软件及硬件服务核心技术:网格技术，分布式存储，动态负载企业服务:虚拟资源池提供，企业云计算整合方案 (4)Oracle 技术特性:软硬件弹性虚拟平台核心技术:Oracle的数据存储技术，Sun开源技术企业服务:EC2上的Oracle 数据库，OracleVM，Sun xVM

搭建基于云计算的开源海量数据挖掘平台

中石化云计算平台建设总体技术方案

数据挖掘试卷一

几种常见云计算平台分析比较

云计算资源池的构建讲课稿

开源私有云搭建方案

最新版云计算平台系统建设项目设计方案

大型企业如何搭建私有云计算平台

大数据相关开源系统简介汇总

云平台建设方案

10 大顶级开源 ERP 系统

云计算平台建设总体技术方案

基于开放式云平台的开源在线评测系统设计与实现

云架构IBMS

如何搭建云计算平台

数据挖掘流程模型CRISP-DM

开源云计算平台