hadoop 技术基础学习资料ppt

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

PARTITIONED BY ( `day_part` string)
ROW FORMAT DELIMITED
表注释 表分区
FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT
'org.apache.hadoop.hive.ql.io.RCFileInputFormat'
表名
`user_id` string COMMENT '订购实例标识', `toll_nums` double COMMENT '本地长途次数',
字段类型及注释
`use_status` string COMMENT '用户使用类型 dim.dim_4G_use_status')
COMMENT 'cBSS业务单用户累计使用衍生信息(日)(从入网开始)'
2、 Hadoop MapReduce是一个使用简易的软件框架,基于它写出来的应用程序 能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处 理上TB级别的数据集。
一个MapReduce作业(job)通常会把输入的数据集切分为若干独立的数据 块,由 Map任务(task)以完全并行的方式处理它们。
1 登录hadoop集群
通过hive命令登陆数据库
show databases; 显示当前的所有数据库(同oracle数据库的用户); use dw; 切换数据库; show functions; 显示所有的函数; show tables; 查看当前数据库下所有的表; show tables '*tg*'; 模糊匹配当前数据库下所有的表;
OUTPUTFORMAT
'org.apache.hadoop.hive.ql.io.RCFileOutputFormat'
LOCATION
'hdfs://beh/user/hive/warehouse/dw.db/dwa_v_d_cus_cb_sing_use_add'
TBLPROPERTIES (
2 Hadoop建表
CREATE EXTERNAL TABLE `tg_cdr_noinfo_fix_d`( `call_duration` int, `otherfee` double, `source_type` string, `cycle_tag` string)
PARTITIONED BY ( `day_part` string)
框架会对Map的输出先进行排序,然后把结果输入给Reduce任务。通常作业 的输入和输出都会被存储 在文件系统中。整个框架负责任务的调度和监控,以及 重新执行已经失败的任务。
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。
3、 Hive是基于Hadoop的一个数据仓库工具,处理能力强而且成本低廉。
sh $v_hql 2>&1 |tee $v_export_log >>/dev/null
导出方法二:
hive -S -e"select 1;"> $directory
4 Haoop的hdfs命令
Hadoop查看目录空间使用情况
命令:hadoop fs -count [-q] <paths> 统计出目录数、文件数及指定路径下文件的大小, 输出列为:DIR_COUNT, FILE_COUNT, CONTENT_SIZE, FILE_NAME.
3 数据查询及导出
导出方法一:
insert overwrite local DIRECTORY '$check_log_dir' ROW FORMAT DELIMITED FIELDS TERMINATED BY '$v_split' select $v_column_list from $v_table t where $v_part='$v_date'; \"">$v_hql
1、 Hadoop HDFS是Google GFS存储系统的开源实现,主要应用场景是作为并 行计算环境(MapReduce)的基础组件,同时也是BigTable(如HBase、 HyperTable)的底层分布式文件系统。
HDFS采用master/slave架构。一个HDFS集群是有由一个Namenode和一定 数目的 Datanode组成。
'hdfs://beh/data/stage2/tg_cdr_noinfo_fix_d' TBLPROPERTIES (
'last_modified_by'='hadoop', 'last_modified_time'='1464585329', 'transient_lastDdlTime'='1464585329')
主要特点: 存储方式是将结构化的数据文件映射为一张数据库表。提供类SQL语言,实现
完整的SQL查询功能。可以将SQL语句转换为MapReduce任务运行,十分适合数 据仓库的统计分析。
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce、Hive和HBase等组成。
4、HBase是一个分布式的、面向列的开源数据库,它不同于一般的关系数据库,是 一个适合于非结构化数据存储的数据库。
THANK YOU
带上-q选项后的输出列为:
QUOTA, REMAINING_QUATA, SPACE_QUOTA, REMAINING_SPACE_QUOTA, DIR_COUNT, FILE_COUNT, CONTENT_SIZE, FILE_NAME.
4 Haoop的hdfs命令
Hdfs相关命令
hadoop fs –ls / 列出当前目录有哪些子目录,有哪些文件。 hadoop fs -count / hadoop fs –mkidr /test 在Hadoop文件系统当中,创建一个test目录 hadoop fs –rmr /test 在Hadoop文件系统当中,创建一个test目录 hadoop fs –get /filename 从Hadoop文件系统当中,获取一个文件到本地的文件系统。 hadoop fs –put srcfile /desfile 从本地的文件系统上传一个文件到Hadoop文件系统中。
HADOOP
一 Hadoop概述
目录1
1 Hadoop生态圈 2 Hadoop构架 3 主要组成部分及介绍
2 Hadoop构架分析
Hadoop 是一个实现了MapReduce 计算模型的开源分布式并行编程框架, 程序员可以借助Hadoop 编写程序,将所编写的程序运行于计算机机群上, 从而实现对海量数据的处理。
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFo rmat' LOCATION
Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对 文件的访问。
Datanode在集群中一般是 一个节点一个,负责管理节点上它们附带的存储。 在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce 、Hive和HBase等组成。
创建外部表
表名 字段类型
表分区
2 Hadoop建表
CREATE TABLE `dwa_v_d_cus_cb_sing_use_add`(
创建表
`day_id` string COMMENT '日期',
`area_id` string COMMENT '地市', `city_id` string COMMENT '区县',
'transient_lastDdlTime'='1461115949');
3 数据查询及导出
表的相关命令
show create table dw.dwa_v_d_cus_cb_sing_use_add;查询建表脚本; show partitions dw.dw_v_u_k_cdr_gprs_cb;查看表分区 select * from dw.dw_v_u_k_cdr_gprs_cb where day_part='20160101' limit 1; 查询数据 insert overwrite table dim.dim_cbss_deposit 清表插入数据 insert into table 插入数据 insert overwrite table dw.dw_v_deposit_info_cb partition(day_part='$v_day');插入分区
Hadoop 还提供一个分布式文件系统(HDFS)及分布式数据库(HBase) 用来将数据存储或部署到各个计算节点上。所以,可以大致认为: Hadoop = HDFS(文件系统,数据存储技术相关)
+ HBase(数据库) + MapReduce(数据处理)
ห้องสมุดไป่ตู้
3 Hadoop组成部分
Hadoop主要由HDFS、MapReduce 、Hive和HBase等组成。
另一个不同的是HBase基于列的而不是基于行的模式。
HBase使用和 BigTable非常相同的数据模型。用户存储数据行在一个表里。 一个数据行拥有一个可选择的键和任意数量的列,一个或多个列组成一个 ColumnFamily,一个Fmaily下的列位于一个HFile中,易于缓存数据。
表是疏松的存储的,因此用户可以给行定义各种不同的列。在 HBase中数据 按主键排序,同时表按主键划分为多个Hregion。
二 Hadoop使用
目录2
1 登陆Hadoop集群 2 Hadoop建表 3 数据查询及导出 4 Hadoop的hdfs命令
1 登录hadoop集群
HOSTNAME
133.128.88.200
PORT
22
USERNAME
hadoop
或者通过其他机器跳转到133.128.88.200下 ssh hadoop@hadoop-m01或ssh hadoop@133.128.88.200键入回车,输入密码。
相关文档
最新文档