Hadoop+Spark 大数据开发项目实践_光环大数据培训

合集下载

全面的Hadoop大数据专业课程有哪些_光环大数据

全面的Hadoop大数据专业课程有哪些_光环大数据大数据一词听起来模糊懵懂，很多想要学习Hadoop大数据的学员都想知道，最全面的Hadoop大数据专业课程有哪些。

下面，就光环大数据的Hadoop大数据培训班所开始的课程对学员的问题作出解答。

大数据课程分为13大阶段90大模块课程+6大企业真实项目实战，每个阶段都有实力案例和项目结合，从简单到专业一步一步带领学生走进大数据开发的世界，帮助学生顺利走上大数据工程师的道路！课程一阶段-JavaSE开发学习内容：JavaSE实战开发学习目标：Java面向对象、访问权限、抽象类与接口、异常处理、I/O流与反射、Java 网络编程。

完成项目：Java多线程模拟多窗口售票，Java集合框架管理。

课程二阶段-JavaEE开发学习内容：JavaEE实战开发学习目标：Mysql数据库，JDBC，JavaWeb开发、Servlet JSP、Java三大框架核心框架开发完成项目：京东电商网站项目、2048游戏项目、智能图书管理系统课程三阶段-并发编程实战开发学习内容：并发编程实战开发学习目标：掌握Socket编程模型、NIO与AIO编程模型Buffer API与通信框架Netty。

完成项目：类QQ聊天室、RPC模拟实现课程四阶段-Linux精讲学习内容：Linux精讲学习目标：搭建负载均衡、高可靠的服务器集群，增大网站并发访问量，保证服务不间断。

完成项目：公司网络拓扑实战、构建企业网站和邮件应用平台、构建服务器管理监控系统。

课程五阶段-Hadoop生态体系学习内容：Hadoop生态体系学习目标：掌握HDFS原理、操作和应用开发，掌握分布式运算、Hive数据仓库原理及应用。

完成项目：微博数据大数据分析项目、用户行为分析项目、精准广告投放项目。

课程六阶段-Python实战开发学习内容：Python实战开发学习目标：能够编写网络爬虫、Python进行网络编程PythonWeb全栈开发、Python机器学习。

光环大数据培训_ spark学习 spark应用案例现场分享

光环大数据培训_spark学习 spark应用案例现场分享光环大数据培训机构，近日，风靡西雅图、旧金山的Datapalooza登陆上海，来自IBM的顶尖数据分析专家和中国业界数据分析带头人齐聚上海交通大学，以精彩的演讲和深度解析为我们打开了Spark世界的大门!以下为来自上海交通大学OMNILab实验室的王海洋博士现场分享的Spark应用案例。

今天主要是以一个数据分析者的角度来与大家分享如何使用spark进行大数据分析。

我将分以下4部分为大家进行介绍。

首先介绍spark的相关背景，包括基本概念以及spark与hadoop的关系。

接下来介绍如何使用spark RDD进行数据分析。

之后分享spark与大数据分析的关系，以及spark在大数据分析中所起到的作用。

最后，为大家分享一下我与四位小伙伴基于去年的SODA开放的交通数据做的案例：大型活动大规模人群的检测与疏散。

spark是一个快速易用的大规模数据计算框架，具有速度快、易使用、功能全的特点，并且可以与Hadoop很好地集成。

那么我们什么时候需要使用spark呢?首先，当我们需要处理的数据量超过了单机尺度(比如我们的计算机有4GB的内存，而我们需要处理100GB以上的数据)这时我们可以选择spark集群进行计算。

有时我们可能需要处理的数据量并不大，但是计算很复杂，需要大量的时间，这时我们也可以选择利用spark集群强大的计算资源，并行化地计算。

spark可以提供了丰富的数据处理操作，包括在线的流式数据处理、离线的批量数据处理、即席查询、机器学习。

spark也提供了多种编程API接口，供具有不同开发经验的数据分析者使用。

spark与Hadoop是什么关系呢? Hadoop有两个核心模块，分布式存储模块HDFS 和分布式计算模块Mapreduce。

spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS。

spark培训课程内容—光环大数据spark培训机构

大数据spark培训光环大数据spark培训简介1.大数据工具—Spark实时分析Spark是伯克利大学2009年开始研发的一个项目，它是大数据时代下的一个快速处理数据分析工作的框架。

spark发展十分迅速，2014年，Hadoop的四大商业机构均宣称全力支持Spark，今后将全面接收基于Spark编写的数据挖掘与分析算法，多家世界顶级的数据企业例如Google，Facebook等现已纷纷转向Spark框架。

近两年，Spark在中国的发展达到了一个前所未有的状态和高度。

其中阿里巴巴的搜索和广告业务，最初使用Mahout和MapReduce来解决复杂的机器学习问题，但是在效率和代码维护方面并不理想，现已转向Spark框架。

淘宝技术团队使用Spark实现了多次迭代的机器学习算法和一些高计算复杂度的算法，并将其运用在推荐系统上；同时还利用Spark中的一系列组件解决了基于最大连通图的社区发现、基于三角形计数的关系衡量、基于随机游走的用户属性传播等许多生产问题。

此外，腾讯也是最早使用Spark的应用之一，借助Spark快速迭代的优势，腾讯提出了大数据精准推荐，并采用“数据+算法+系统”这套技术方案支持每天上百亿的请求量。

2.大数据处理—Spark基于内存Spark运行速度如此之快，主要得益于以下两方面：一方面，Spark中的运算大多是基于内存的。

Spark提出了一种分布式的内存抽象，称为弹性分布式数据集（RDD，Resilient DistributedDatasets）。

RDD支持基于工作集的应用，同时具有数据流模型的特点：自动容错、位置感知调度和可伸缩性。

RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，后续的查询能够重用工作集，这极大地提升了查询速度。

另一方面，Spark从稳定的物理存储（如分布式文件系统）中加载记录，记录被传入由一组确定性操作构成的DAG，然后写回稳定存储。

DAG数据流图能够在运行时自动实现任务调度和故障恢复。

Hadoop--快速搭建大数据开发环境_光环大数据培训

Hadoop--快速搭建大数据开发环境_光环大数据培训最近自己电脑的磁盘坏了，导致数据也没了。

安装好系统之后就是各种弄环境了，之前的博客也写过hadoop环境搭建Hadoop，Hive，HBase，Kafka，Spark，MySQL，Redis等等一系列的。

之前记录的目的也是为了方便自己吧，但整个流程下来还是的花费几个小时。

从前面的博客找到从虚拟机的网络配置，下载软件上传在修改配置挺麻烦的。

这里再次做个汇总，以后做这个过程或者升级就更加方便（主要便捷是后面会给出一个Virtual Box的包直接导入就有这些所有环境了）。

准备∙软件下载安装linux1.安装virtual box（略，这个没什么好说的，一直下一步就ok！）2.安装Linux虚拟机注意（选择第一个）3.添加虚拟机后网络配置环境准备∙规划1.创建一个data目录所有东西都放在那儿：mkdir /data2.再在data目录下创建一个data目录用来保存一些数据，比如hdfs,kafka等：mkdir /data/data∙上传软件准备1.关闭防火墙：[[email protected] ~]# service iptables stop [[email protected] ~]# c hkconfig --list | grep iptables2.修改主机名：修改[[email protected] ~]# vi /etc/sysconfig/network## 修改为：HOSTNAME=xi aoxiaomo3.绑定hosts Name：[[email protected] ~]# vi /etc/hosts## 添加192.168.56.102 xiaoxiaomo4.设置ssh：[[email protected] ~]# ssh-keygen -t rsa #生成rsa格式的ssh私钥和公钥[[email protected] ~]# ssh-copy-id -i xiaoxiaomo #把公钥复制到对方节点(这里我复制到自己的主机xiaoxiaomo01上)[[email protected] ~]# ssh xiaox iaomo01 #验证5.安装国内的yum镜像参考：/2016/02/11/Linux-Yum%E6%BA%90%E7%A0%8 1%E5%AE%89%E8%A3%85%E9%85%8D%E7%BD%AE/6.安装JDK 参考，这里我们安装jdk1.8 ：##解压到/data && 修改名称[[email protected] ~]# tar -zxvf /opt/jdk-8u1 44-linux-x64.tar.gz -C /data[[email protected] ~]# mv /data/jdk1.8.0_ 144/ /data/jdk##配置环境变量[[email protected] ~]# vi /etc/profileexpo rt JAVA_HOME=/data/jdkexport PATH=.:$JAVA_HOME/bin:$PATH参考：/2016/04/09/Hadoop-%E5%AE%89%E8%A3%85%E5%89 %8D%E7%8E%AF%E5%A2%83%E5%87%86%E5%A4%87/安装Hadoop∙解压&&重命名&&配置环境变量[[email protected] ~]# tar -zxvf /opt/hadoop-2.7.2.tar.gz -C /data/ [[email protected] ~]# mv /data/hadoop-2.7.2/ /data/hadoop[[email pro tected] ~]# mkdir -p /data/data/hdfs/name ##需要创建一个目录不然启动会报错[[email protected] ~]# vim /etc/profile ##添加如下export HADOOP_HO ME=/data/hadoopexport PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:## 【**备注后面的环境变量就略了，参考附录中的环境变量**】∙配置1.配置core-site.xml<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://xiaoxiaomo:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/data/data/hdfs/tmp</v alue> </property> </configuratio n>2.配置hadoop-env.shexport JAVA_HOME=/data/jdkexport HADOOP_LOG_DIR=/data/data/hdfs/logs3.配置hdfs-site.xml<configuration> <property> <name>.dir</name> <value>file:///data/data/hdfs/name</value> </property><property> <name>dfs.datanode.data.dir</name> <value>fi le:///data/data/hdfs/data</value> </property> <property> <name>node.checkpoint.dir</name> <value>file:// /data/data/hdfs/namesecondary</value> </property> <property> <name>node.secondary.http-address</name> <v alue>xiaoxiaomo:9001</value> </property> <property> <name> dfs.replication</name> <value>1</value> </property> <prop erty> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.permissions</name><value>false</value> </property> </configu ration>4.配置log4j.propertieshadoop.log.dir=/data/data/hdfs/logs5.配置log4j.properties<configuration> <property> <name></ name> <value>yarn</value> </property> <property> < name>mapreduce.jobhistory.address</name> <value>xiaoxiaomo:100 20</value> </property> <property> <name>mapreduce.jobhist ory.webapp.address</name> <value>xiaoxiaomo:19888</value> < /property> <property> <name>yarn.app.mapreduce.am.staging-d ir</name> <value>/history</value> </property> <proper ty> <name>mapreduce.jobhistory.done-dir</name> <value> ${yarn.app.mapreduce.am.staging-dir}/history/done</value> </proper ty> <property> <name>mapreduce.jobhistory.intermediate-done -dir</name> <value>${yarn.app.mapreduce.am.staging-dir}/histor y/done_intermediate</value> </property> <property> <name>mapreduce.map.log.level</name> <value>DEBUG </value> </property> <property> <name>mapr educe.reduce.log.level</name> <value>DEBUG</value> </property></configuration>6.配置slaves##localtion修改为xiaoxiaomo7.yarn-env.shexport JAVA_HOME=/data/jdkexport YARN_LOG_DIR=/data/data/hdfs/logsex port YARN_ROOT_LOGGER=DEBUG,DRFA8.配置yarn-site.xml<configuration> <property> <name>yarn.nodemanager.aux-servi ces</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.resourcemanager.hostname</name> <value>xiaoxiaomo</value> </property> <pr operty> <name>yarn.resourcemanager.address</name> <value> xiaoxiaomo:8032</value> </property> <property> <name>yarn.resourcemanager.scheduler.address</name> <value>xiaoxiaomo:803 0</value> </property> <property> <name>yarn.resourcemanag er.resource-tracker.address</name> <value>xiaoxiaomo:8031</val ue> </property> <property> <name>yarn.resourcemanager.adm in.address</name> <value>xiaoxiaomo:8033</value> </property> <property> <name>yarn.resourcemanager.webapp.address</name> <value>xiaoxiaomo:8088</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property></configuration>启动测试## 格式化数据目录[[email protected] ~]# hdfs namenode -format## 启动hd fs[[email protected] ~]# start-dfs.sh ##访问：http://xiaoxiaomo:50070# # 启动yarn[[email protected] ~]# start-yarn.sh ##访问：http://xiaoxiao mo:8088安装zookeeper[[email protected] ~]# tar -zxvf /opt/zookeeper-3.4.9.tar.gz -C /data/ [[email protected] ~]# mv /data/zookeeper-3.4.9/ /data/zookeeper## 配置环境变量略[[email protected] ~]# vi /etc/profile ## 添加：export ZK_HOME=/ data/zookeeper[[email protected] ~]# cd $ZK_HOME/conf[[email protected] conf]# mv zoo_sample.cfg zoo.cfg[[email protected] conf]# vi zoo.cfg ##参考：/2016/05/05/Zookeeper-%E9%9B%86%E7%BE%A4%E6 %90%AD%E5%BB%BA/安装HBase[[email protected]xiaoxiaomo ~]# tar -zxvf hbase-1.3.1-bin.tar.gz -C /da ta/[[email protected]xiaoxiaomo ~]# mv /data/hbase-1.3.1/ /data/hbase修改配置1.vi $HBASE_HOME/conf/hbase-env.shexport JAVA_HOME=/data/jdkexport HBASE_LOG_DIR=/data/data/hbase/logs export HBASE_ROOT_LOGGER=INFO,DRFA2.vi $HBASE_HOME/conf/hbase-site.xml<property> <name>hbase.tmp.dir</name> <value>/data/data/hbase/tmp</ value></property><property> <name>hbase.rootdir</name><value>hdfs:/ /xiaoxiaomo:9000/hbase</value></property><property> <name>hbase.clu ster.distributed</name> <value>true</value></property><pro perty> <name>hbase.zookeeper.quorum</name> <value>xiaoxiaomo</value> </property><property> <name>hbase.zookeeper.property.dataDir</name> <value>/data/data/hbase/zk</value></property>3.vi $HBASE_HOME/conf/log4j.propertiehbase.log.dir=/data/data/hbase/logs ##修改为统一目录4.启动## 启动hbase[[email protected] ~]# start-hbase.sh安装MySQL[[email protected] opt]# rpm -qa|grep mysql #如有就卸载[[email protected] opt]# tar -xvf mysql-5.7.9-1.el6.x86_64.rpm-bundle.tar [[email protecte d] opt]# rpm -ivh mysql-community-common-5.7.9-1.el6.x86_64.rpm [[email protected] opt]# rpm -ivh mysql-community-libs-5.7.9-1.el6.x86_64.rpm [[email protected] opt]# rpm -ivh mysql-community-client-5.7.9-1.el6.x86 _64.rpm [[email protected] opt]# yum install -y mysql-community-server-5.7.9-1.el6.x86_64.rpm [[email protected] opt]# mysqld --initialize #初始化[[email protected] opt]# cat /var/log/mysqld.log #可以获取初始密码[[email protected] opt]# chown -R mysql:mysql /var/lib/mysql #授权[[email pro tected] opt]# /etc/init.d/mysqld start #启动[[email protected] opt]# mys ql -uroot -p #登录（通过默认的初始密码）##登录进去后要重设密码mysql>SET PASS WORD = PASSWORD('root');##mysql启动&&停止[[email protected] opt]# /etc/i nit.d/mysqld start ##启动服务[[email protected] opt]# service mysqld star t ##启动服务[[email protected] opt]# /etc/init.d/mysqld stop ##启停止服务[[email protected] opt]# service mysqld stop ##停止服务安装Hive[[email protected] opt]# tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /data /[[email protected] opt]# mv /data/apache-hive-1.2.1-bin/ /data/hive##配置环境变量略[[email protected] opt]# cd $HIVE_HOME[[email protected] hi ve]# cp conf/hive-env.sh.template conf/hive-env.sh[[email protected] hiv e]# cp conf/hive-default.xml.template conf/hive-site.xml修改配置1.hive-env.sh[[email protected] hive]# vim conf/hive-env.sh ##添加如下配置export JA VA_HOME=/data/jdkexport HIVE_HOME=/data/hiveexport HADOOP_HOME=/data /hadoop2.hive-env.sh[[email protected] hive]# vim conf/hive-env.sh ##修改如下配置<property> <name>hive.querylog.location</name> <value>/data/data/hive/tmp</va lue></property><property> <name>hive.exec.local.scratchdir</name> < value>/data/data/hive/tmp</value></property><property> <name>hive.d ownloaded.resources.dir</name> <value>/data/data/hive/tmp</value></ property><property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true&useUnicode=true&characterEncoding=UTF-8</value></property><property> <name>javax.jdo.option.Connectio nDriverName</name> <value>com.mysql.jdbc.Driver</value></property>< property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value></property><property> <name>javax.jdo.option.ConnectionPassword</name> <value>root</value></property>3.复制mysql驱动jar包到$HIVE_HOME/lib/目录下4.启动。

Hadoop基础之初识大数据与Hadoop_光环大数据培训

从大量客户中快速识别出金牌客户。
使用点击流分析和数据挖掘来规避欺诈行为。
2.4、大数据的系统架构(整体架构)
2.5、大数据处理平台
2.6、大数据中的几个概念
1)集群(Cluster)：服务器集群就是指将很多服务器集中起来群可以利用多个计算机进行并行计算从而获得很高的计算速度，也可以用多个计算机做备份，
1)对于“大数据”(Big data)研究机构 Gartner 给出了这样的定义。 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
2)麦肯锡全球研究所给出的定义是：一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
光环大数据--大数据培训&人工智能培训 Hadoop 基础之初识大数据与 Hadoop_光环大数据培训
我将一步一步的分享大数据相关的知识，其实很多程序员感觉大数据很难学，其实并不是你想象的这样，只要自己想学，还有什么难得呢?
学习 hadoop 有一个 8020 原则，80%都是在不断的配置配置搭建集群，只有 20%写程序!
6)机器学习(MachineLearning)：当数据被处理完，用来获取所处理的信息。从数据集中获取信息。
7)云计算(CloudComputing)：通过
互联网来提供动态易扩展且经常是虚拟化的资源
三、Hadoop 概述
3.1、什么是 Hadoop
1)Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。
1)Hadoop 是一个能够对大量数据进行分布式处理的软件框架。

Hadoop和Spark _光环大数据spark培训

Hadoop和Spark _光环大数据spark培训光环大数据是专注大数据、人工智能垂直领域高薪就业培训机构，多年来专注大数据人才培养，携17年IT培训经验,与中关村软件园共同建立国家大数据人才培养基地,并与全球知名大厂商cloudera战略合作培养中国大数据高级人才，专注为大学生及在职人员提供专业师资平台及培训服务，助力他们高薪名企就业。

Hadoop和SparkHadoop这项大数据处理技术大概已有十年历史，而且被看做是首选的大数据集合处理的解决方案。

MapReduce是一路计算的优秀解决方案，不过对于需要多路计算和算法的用例来说，并非十分高效。

数据处理流程中的每一步都需要一个Map阶段和一个Reduce阶段，而且如果要利用这一解决方案，需要将所有用例都转换成MapReduce模式。

在下一步开始之前，上一步的作业输出数据必须要存储到分布式文件系统中。

因此，复制和磁盘存储会导致这种方式速度变慢。

另外Hadoop解决方案中通常会包含难以安装和管理的集群。

而且为了处理不同的大数据用例，还需要集成多种不同的工具（如用于机器学习的Mahout和流数据处理的Storm）。

如果想要完成比较复杂的工作，就必须将一系列的MapReduce作业串联起来然后顺序执行这些作业。

每一个作业都是高时延的，而且只有在前一个作业完成之后下一个作业才能开始启动。

而Spark则允许程序开发者使用有向无环图（DAG）开发复杂的多步数据管道。

而且还支持跨有向无环图的内存数据共享，以便不同的作业可以共同处理同一个数据。

Spark运行在现有的Hadoop分布式文件系统基础之上（HDFS）提供额外的增强功能。

它支持将Spark应用部署到现存的Hadoopv1集群（withSIMR–Spark-Inside-MapReduce）或Hadoopv2YARN集群甚至是ApacheMesos之中。

我们应该将Spark看作是HadoopMapReduce的一个替代品而不是Hadoop的替代品。

Hadoop入门培训—光环大数据培训

16年老品牌，上市IT培训机构
官方网站：/
Hadoop生态系统和Google架构比较
• 技术架构的比较
– 并行计算模型：MapReduce->MapReduce – 分布式文件系统：HDFS->GFS – 数据结构化管理组件：Hbase->BigTable – 分布式锁服务Zookeeper->Chubby
16年老品牌，上市IT培训机构
官方网站：/
一、Hadoop简介
• Hadoop是一个分布式系统基础架构，由Apache基金会开发。 • 2006年2月从Nutch项目中分离出来,正式成为Apache顶级项目之一。 • 作者:Doug Cutting • 官方网站 • 产品Logo
Map/Reduce HDFS Other FS
16年老品牌，上市IT培训机构
官方网站：/
谁在用Hadoop
16年老品牌，上市IT培训机构
官方网站：/
问:为什么要用Hadoop?
答：都是数据惹的祸: (1).海量数据存储用Mysql?Oracle?各种水平、垂直扩展？ (2).海量数据计算用性能卓越的单台机器？ (3).上述问题的容错性
对于Reduce的输入为: <Bye,1> <Goodbye,1> <Hadoop,1> <Hadoop,1> <Hello,1> <Hello,1> <World,1> <word,1>
整个map的输出是： < Hello,1> < World, 1> < Bye, 1> < World, 1> < Hello, 1> < Hadoop, 1> < Goodbye, 1> <Hadoop,1> Reduce的输出为 < Bye, 1> < Goodbye, 1> < Hadoop, 2> < Hello, 2> < World, 2>

光环大数据的人工智能培训_光环大数据人工智能培训课程有哪些内容

光环大数据的人工智能培训_光环大数据人工智能培训课程有哪些内容光环大数据人工智能培训课程有哪些内容？随着人工智能技术在个人财务管理、公共记录、客户体验以及学习新事物等平台的发展，这种行业转移将变得更加普遍。

人工智能工程师和开发人员将致力于打造由算法驱动的人工智能，人工智能的发展会越来越好，因此参加人工智能培训课程进而转行人工智能行业是非常好的时机。

光环大数据人工智能培训课程有哪些内容？课程一阶段PythonWeb学习内容：PythonWeb内容实战学习目标：掌握HTML与CSS基础与核心、JavaScript原生开发，jQuery框架、XML与AJAX 技术完成项目：大型网站设计项目、京东电商网站项目、JS原生特效编写实战。

课程二阶段PythonLinux学习内容：PythonLinux实战开发学习目标：熟练Linux安装与管理、熟练使用Shell核心编程，掌握服务器配置与管理。

完成项目：ERP员工管理系统开发、图书管理系统开发、数据库系统调优。

课程三阶段文件与数据库学习内容：文件与数据库实战开发学习目标：熟练掌握Python各类操作，熟练掌握数据库语法与函数编程，及大数据库解决方案完成项目：权限系统数据库设计、日志系统数据库设计、综合系统数据库设计。

课程四阶段Python基础学习内容：Python基础实战开发学习目标：熟练掌握Python基础开发，掌握函数与控制、Python数据库开发。

完成项目：设计高级石头剪刀布游戏、计算器程序设计开发。

课程五阶段Python进阶开发学习内容：Python进阶实战开发学习目标：熟练使用经典开发与爬虫设计，熟练掌握买面向对性开发及并发原理。

完成项目：智能电子购物车项目、异步即时聊天室项目、Python超级爬虫编写。

课程六阶段Django编程开发学习内容：Django编程实战开发学习目标：熟练掌握Django框架设计、了解Django工作机制、熟练应用Django框架。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

Hadoop+Spark 大数据开发项目实践_光环大数据培训随着IT技术的飞速发展，各行各业都已在广泛尝试使用大数据技术提供更稳健和优质的服务。

目前，医疗IT系统收集了大量极具价值的数据，但这些历史医疗数据并没有发挥出其应有的价值。

为此，本文拟利用医院现有的历史数据，挖掘出有价值的基于统计学的医学规则、知识，并基于这些信息构建专业的临床知识库，提供诊断、处方、用药推荐功能，基于强大的关联推荐能力，极大地提高医疗服务质量，减轻医疗人员的工作强度。

二、hadoop&Spark目前大数据处理领域的框架有很多。

从计算的角度上看，主要有MapReduce框架(属于Hadoop生态系统)和Spark框架。

其中Spark是近两年出现的新一代计算框架，基于内存的特性使它在计算效率上大大优于MapReduce框架; 从存储角度来看，当前主要还是在用Hadoop生态环境中的HDFS框架。

HDFS的一系列特性使得它非常适合大数据环境下的存储。

1、HadoopHadoop不是一个软件，而是一个分布式系统基础架构，是由Apache基金会主持开发的一个开源项目。

Hadoop可以使用户在不了解分布式底层实现的情况下，开发分布式程序，从而充分利用电脑集群的威力，实现高速运算和大规模数据存储。

Hadoop主要有HDFS、MapReduce、Hbase等子项目组成。

Hadoop是一个能够对大量数据进行分布式处理的软件框架，并且使用可靠、高效、可伸缩的方式进行数据处理。

Hadoop假设数据处理和存储会失败，因此系统维护多个工作数据副本，确保能够针对失败的节点重新分布处理。

Hadoop通过并行工作，提高数据处理速度。

Hadoop能够处理PB级数据，这是常规数据服务器所不能实现的。

此外，Hadoop依赖于开源社区，任何问题都可以及时得到解决，这也是Hadoop的一大优势。

Hadoop建立在Linux 集群上，因此成本低，并且任何人都可以使用。

它主要具有以下优点：高可靠性。

Hadoop系统中数据默认有三个备份，并且Hadoop有系统的数据检查维护机制，因而提供了高可靠性的数据存储。

扩展性强。

Hadoop在普通PC服务器集群上分配数据，通过并行运算完成计算任务，可以很方便的为集群扩展更多的节点。

高效性。

Hadoop能够在集群的不同节点之间动态的转移数据。

并且保证各个节点的动态平衡，因此处理速度非常快。

高容错性。

Hadoop能够保存数据的多个副本，这样就能够保证失败时，数据能够重新分配。

Hadoop总体架构如下图所示，Hadoop架构中核心的是MapReduce和HDFS两大组件。

Google曾发表论文《Google File System》，系统阐述了Google的分布式文件系统的设计实现，Apache针对GFS，进行开源开发，发布了Hadoop的分布式文件系统：Hadoop Distributed File System，缩写为HDFS。

MapReduce的核心思想也由Google的一篇论文《MapReduce:Simplified Data Processing on Large Clusters》提出，简单解释MapReduce的核心思想就是：任务分解执行，执行结果汇总。

2、SparkSpark是UC Berkeley大学AMP实验室开源的类似MapReduce的计算框架，它是一个基于内存的集群计算系统，最初的目标是解决MapReduce磁盘读写的开销问题，当前最新的版本是1.5.0。

Spark—经推出，就以它的高性能和易用性吸引着很多大数据研究人员，在众多爱好者的努力下，Spark逐渐形成了自己的生态系统( Spark为基础，上层包括Spark SQL，MLib，Spark Streaming和GraphX)，并成为Apache的顶级项目。

Spark的核心概念是弹性分布式存储(Resilient Distributed Datasets，RDD)间，它是Spark对分布式内存进行的抽象，使用者可以像操作本地数据集一样操作RDD，从而可以将精力集中于业务处理。

在Spark程序中，数据的操作都是基于RDD的，例如经典的WordCount 程序，其在Spark编程模型下的操作方式如下图所示：可以看到Spark先从文件系统抽象出RDD1，然后由RDD1经过flatMap算子转换得到RDD2，RDD2再经过reduceByKey算子得到RDD3，最后RDD3中的数据重新写回文件系统，一切操作都是基于RDD的。

三、思路和架构经过多方面的思考，最终决定基于Spark技术进行构建和实现医院临床知识库系统，采用MongoDB/Sequoiadb构建大数据仓库，做为大数据的存储中心，采用Hadoop+Spark1构建大数据分析平台，基于 SOA中间件构建ETL数据抽取转换工具(后期部分换用了Pentaho Kettle)，基于 SOA中间件构建知识库的服务门户，通过WCF/WebService与HIS系统进行业务整合集成，使用 SOA+FineUI构建基础字典管理以后分析结构的图像化展示功能。

最初我们选择了SequoiaDB做为大数据存储中心，为此我还特意的为SequoiaDB完成了C#驱动，参考本人为巨杉数据库(开源NoSQL)写的C#驱动，支持Linq，全部开源，已提交Github一文，但是一方面熟悉SequoiaDB的技术人员太少了，维护是个问题，最后，在差不多8多个月这后我们换用了MongoDB 3.0做为大数据存储中心。

最初我们选择了Hadoop2.0+Spark1.3.1版本之上使用scala2.10开发完成了医院临床知识库系统，请参考centos+scala2.11.4+Hadoop2.3+Spark1.3.1环境搭建，但是在后期替换Sequoiadb为MongoDB的同时，我们把计算框架也由Hadoop2.0+Spark1.3.1升级到了Hadoop2.6+Spark1.6.2。

考虑到Spark都部署在Linux的情况，对于Spark分析的结果输出存储在MySQL5.6数据库之中，系统所使用的各种字典信息也存储在MySQL之中。

Spark数据分析部分的代码使用IntelliJ IDEA 14.1.4工具进行编写，其他部分的代码使用VS2010进行编写。

1、总体架构整个系统由数据采集层、存储分析层和应用逻辑层三大部分以及本系统所选所以来的外部数据源。

本系统的外部数据源目前主要是医院信息系统所产生的临床数据，目前主要集中在HIS系统之中，后期将采依赖于EMR、LIS、PACS系统。

数据采集层主要负责从临床业务系统采集海量历史临床数据同，历史记录采集方式分为批采集和实时采集，在数据采集过程之中对原始数据进行格工检查，并对原始数据进行清洗和转换，并将处理后的数据存储在大数据仓库之中。

存储分析层主要负责数据存储以及数据分析两大部分业务，经过清洗转换的合理有效数据被存储在大数据集群之中，使用JSON格式，大数据存储引用使用SequoiaDB数据库，数据分析部分由Hadoop/Spark集群来完成，大数据存储经由Spark导入并进行分析，分析结果写入临床知识数据库，临床知识数据库使用MySQL数据库进行存储。

应用逻辑层主要负责人机交互以及分析结构回馈临床系统的渠道，通过WebUI的方式向临床医生、业务管理人员提供列表式、图像化的知识展示，也为临床系统的业务辅助、推荐功能提供调用的集成API，目前API主要通过WebService、WebAPI两种方式提供。

2、总体流程整个系统经由数据源数据采集，写入大数据存储SequoiaDB集群，然后由Spark进行分析计算，分析生成的临床知识写入MySQL知识库，经由WebUI以及标准的API交由临床使用。

3、数据导入流程历史数据的采集导入使用初期使用 SOA 的计划任务配何C#脚本进行实现，由计划任务进行协调定时执行，具体的数据导入代码根据不同的临床业务系统不同进行脚本代码的调整，也可以使用Pentaho Kettle进行实现，通过Pentaho Kettle可配置的实现数据的导入。

4、物理结构设计临床数据源为本系统进行分析的数据来源，源自于临床HIS、EMR，目前医院的HIS 使用SQL Server 2008 R2数据库，EMR使用ORACLE 11G数据库，运行于Windows2008操作系统之上。

SequoiaDB集群为大数据存储数制库集群，目前使用SequoiaDB v2.0，运行于Centos6.5操作系统之上，根据业务来规模使用2-16节点集群，其用于存储经过清洗转换处理的海量历史临床数据，供Spark集群进行分析，以及供应SOA服务器进行历史数据查询和历史相关推荐使用。

Hadoop/Spark集群为本系统的分析计算核心节点，用于对SequoiaDB集群之中的历史数据进行分析，生成辅助临床医生使用的医学知识，本集群根据业务来规模使用2-16节点集群，使用Centos6.5操作系统，安装JAVA1.7.79运行环境、scala2.11.4语言，使用Hadoop2.3，Spark1.3.1分析框架。

MySQL知识库为本系统的知识库存储数据库，Hadoop/Spark集群所生产的分析结构写入本数据库，经由SOA服务器和Web服务处理供临床系统集成使用和WebGUI展现，目前使用MySQL5.6版本，安装于Windows2008/Centos6操作系统之上。

SOA Server为本系统的对外接口应用服务器，向临床业务系统和Web Server提供业务运算逻辑，以及向临床业务系统提供服务API，目前运行于Windows2008操作系统，部署有.NET Framework 4.0环境，运行 SOA 中间件的SOA服务，由 SOA 中间件SOA服务向外部系统提供标准的WebService以及WebAPI。

Web Server为系统提供基于标准的B/S浏览器用户接口，供业务人员通过B/S网页对系统进行管理，查询使用知识库之中的医学知识，目前运行于Windows2008操作系统，部署有.NET Framework 4.0环境，运行于IIS7.0之中。

临床工作站系统运行HIS、EMR系统，两系统均使用C#语言SOA架构思路进行开发，与本系统集成改造后，使用标准WebService接口本系统，使用本系统所提供的API为临床提供诊疗辅助。

四、环境、安装、坑目前系统跑在虚拟化环境之中，其中三台Centos6组成大数据存储、计算集群，每台分配16CPU(核)16G内存2T硬盘，3台共48核48G，这三台机器每台都安装了Java1.8.25+scala2.10+Hadoop2.6，Spark1.62，MongoDB3.0组合3节点的集群，Spark采用Standalone Cluster模式，单一master节点，为每台机器分配其中12核12G用于Worker，其余CPU内存留给MongoDB集群使用，运行截图如下：一台Win2008做为SOA|应用服务器，分配32核64G内存，部署了MySQL5.6，IIS， SOA 服务，整个系统的SOA服务和Web管理界面由本服务器进行承载，一方面提供Web方式的管理和查询，另一方面以webservice、webAPI为临床系统提供服务。