HDFS基本操作
HDFS的部署:
1.本地部署(Hadoop解压出来即可)
2.伪分布式部署(本质上是个集群,但是只有一个节点)
3.全分布式部署(集群部署,多个节点)
a)非HA(高可用性)
b)HA
HDFS维护一个fsimage文件:这个文件存储的就是Namenode所有的元数据,这个文件随着集群的使用,fsimage文件会越来越大,如果这个文件非常大了,这时候再对这个文件进行操作的时候,效率就非常低。创建一个edits文件,来保存集群最新的操作。当edits文件达到一定的大小/一定的时间,再把edits文件和fsimage文件进行合并。
有时候使用jps打印出来的进程没问题,但是集群不能用,比较常见的一种情况,就是在启动集群的时候,各个节点的防火墙没有关闭。一种很简单的检测方式,就是给集群上传一个文件。
HDFS的shell操作,是在bin/hadoop fs命令下进行操作
HDFS文件系统和Linux系统的文件系统不是一个东西。
HDFS文件系统:目前只能通过bin/hadoop fs命令的方式来访问
Linux系统的文件系统:直接在命令行里就能直接访问cd
这两个系统的根目录都是“/”
HDFS集群信息及文件信息可以通过50070这个端口进行访问
localhost:50070
HDFS常用shell操作:
查看某个目录下的文件: bin/hadoop fs -ls HDFS目录
如:bin/hadoop fs –ls /
上传文件:bin/hadoop fs -put 本机目录HDFS目录
如:bin/hadoop fs -put ~/jdk-8u65-linux-x64.tar.gz /
下载文件:bin/hadoop fs-get HDFS目录本机目录
如:bin/hadoop fs -get /jdk-8u65-linux-x64.tar.gz ~/Desktop
创建目录:bin/hadoop fs -mkdir HDFS目录
如:bin/hadoop fs -mkdir /test --只能创建一级目录
如:bin/hadoop fs -mkdir -p /aaa/bbb/ccc --一次创建多级目录查看某个文件:bin/hadoop fs –cat HDFS里文件的路径
如:bin/hadoop fs -cat /test/core-site.xml
单独启动namenode进程
sbin/hadoop-daemons.sh start namenode