hadoop 技术基础学习资料ppt

相关主题

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

PARTITIONED BY ( `day_part` string)
ROW FORMAT DELIMITED
表注释表分区
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.RCFileInputFormat'
表名
`user_id` string COMMENT '订购实例标识', `toll_nums` double COMMENT '本地长途次数',
字段类型及注释
`use_status` string COMMENT '用户使用类型 dim.dim_4G_use_status')
COMMENT 'cBSS业务单用户累计使用衍生信息(日)（从入网开始）'
2、 Hadoop MapReduce是一个使用简易的软件框架，基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上，并以一种可靠容错的方式并行处理上TB级别的数据集。
一个MapReduce作业（job）通常会把输入的数据集切分为若干独立的数据块，由 Map任务（task）以完全并行的方式处理它们。
1 登录hadoop集群
通过hive命令登陆数据库
show databases; 显示当前的所有数据库（同oracle数据库的用户）; use dw; 切换数据库; show functions; 显示所有的函数; show tables; 查看当前数据库下所有的表; show tables '*tg*'; 模糊匹配当前数据库下所有的表;
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'
LOCATION
'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'
TBLPROPERTIES (
2 Hadoop建表
CREATE EXTERNAL TABLE `tg_cdr_noinfo_fix_d`( `call_duration` int, `otherfee` double, `source_type` string, `cycle_tag` string)
PARTITIONED BY ( `day_part` string)
框架会对Map的输出先进行排序，然后把结果输入给Reduce任务。通常作业的输入和输出都会被存储在文件系统中。整个框架负责任务的调度和监控，以及重新执行已经失败的任务。
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。
3、 Hive是基于Hadoop的一个数据仓库工具，处理能力强而且成本低廉。
sh $v_hql 2>&1 |tee $v_export_log >>/dev/null
导出方法二：
hive -S -e"select 1;"> $directory
4 Haoop的hdfs命令
Hadoop查看目录空间使用情况
命令：hadoop fs -count [-q] <paths> 统计出目录数、文件数及指定路径下文件的大小，输出列为：DIR_COUNT, FILE_COUNT, CONTENT_SIZE, FILE_NAME.
3 数据查询及导出
导出方法一：
insert overwrite local DIRECTORY '$check_log_dir' ROW FORMAT DELIMITED FIELDS TERMINATED BY '$v_split' select $v_column_list from $v_table t where $v_part='$v_date'; \"">$v_hql
1、 Hadoop HDFS是Google GFS存储系统的开源实现，主要应用场景是作为并行计算环境（MapReduce）的基础组件，同时也是BigTable（如HBase、 HyperTable）的底层分布式文件系统。
HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定数目的 Datanode组成。
'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d' TBLPROPERTIES (
'last_modified_by'='hadoop', 'last_modified_time'='1464585329', 'transient_lastDdlTime'='1464585329')
主要特点：存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言，实现
完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行，十分适合数据仓库的统计分析。
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。
4、HBase是一个分布式的、面向列的开源数据库，它不同于一般的关系数据库,是一个适合于非结构化数据存储的数据库。
THANK YOU
带上-q选项后的输出列为：
QUOTA, REMAINING_QUATA, SPACE_QUOTA, REMAINING_SPACE_QUOTA, DIR_COUNT, FILE_COUNT, CONTENT_SIZE, FILE_NAME.
4 Haoop的hdfs命令
Hdfs相关命令
hadoop fs –ls / 列出当前目录有哪些子目录，有哪些文件。 hadoop fs -count / hadoop fs –mkidr /test 在Hadoop文件系统当中，创建一个test目录 hadoop fs –rmr /test 在Hadoop文件系统当中，创建一个test目录 hadoop fs –get /filename 从Hadoop文件系统当中，获取一个文件到本地的文件系统。 hadoop fs –put srcfile /desfile 从本地的文件系统上传一个文件到Hadoop文件系统中。
HADOOP
一 Hadoop概述
目录1
1 Hadoop生态圈 2 Hadoop构架 3 主要组成部分及介绍
2 Hadoop构架分析
Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架，程序员可以借助Hadoop 编写程序，将所编写的程序运行于计算机机群上，从而实现对海量数据的处理。
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFo rmat' LOCATION
Namenode是一个中心服务器，负责管理文件系统的namespace和客户端对文件的访问。
Datanode在集群中一般是一个节点一个，负责管理节点上它们附带的存储。在内部，一个文件其实分成一个或多个block，这些block存储在Datanode集合里。
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce 、Hive和HBase等组成。
创建外部表
表名字段类型
表分区
2 Hadoop建表
CREATE TABLE `dwa_v_d_cus_cb_sing_use_add`(
创建表
`day_id` string COMMENT '日期',
`area_id` string COMMENT '地市', `city_id` string COMMENT '区县',
'transient_lastDdlTime'='1461115949');
3 数据查询及导出
表的相关命令
show create table dw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本; show partitions dw.dw_v_u_k_cdr_gprs_cb;查看表分区 select * from dw.dw_v_u_k_cdr_gprs_cb where day_part='20160101' limit 1; 查询数据 insert overwrite table dim.dim_cbss_deposit 清表插入数据 insert into table 插入数据 insert overwrite table dw.dw_v_deposit_info_cb partition(day_part='$v_day')；插入分区
Hadoop 还提供一个分布式文件系统(HDFS）及分布式数据库（HBase）用来将数据存储或部署到各个计算节点上。所以，可以大致认为： Hadoop = HDFS（文件系统，数据存储技术相关）
+ HBase（数据库） + MapReduce（数据处理）
ห้องสมุดไป่ตู้
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce 、Hive和HBase等组成。
另一个不同的是HBase基于列的而不是基于行的模式。
HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。一个数据行拥有一个可选择的键和任意数量的列，一个或多个列组成一个 ColumnFamily，一个Fmaily下的列位于一个HFile中，易于缓存数据。
表是疏松的存储的，因此用户可以给行定义各种不同的列。在 HBase中数据按主键排序，同时表按主键划分为多个Hregion。
二 Hadoop使用
目录2
1 登陆Hadoop集群 2 Hadoop建表 3 数据查询及导出 4 Hadoop的hdfs命令
1 登录hadoop集群
HOSTNAME
133.128.88.200
PORT
22
USERNAME
hadoop
或者通过其他机器跳转到133.128.88.200下 ssh hadoop@hadoop-m01或ssh hadoop@133.128.88.200键入回车，输入密码。