HDFS HA和Federation安装部署方法
本文介绍了HDFS HA和Federation安装部署方法。
{关注大规模数据处理,包括Hadoop,YARN,Spark,Flink,Presto等}
本文介绍了HDFS HA和Federation安装部署方法。
在Cloudera公司最新发布的CDH5(基于apache hadoop 2.2.0)中,自带了YARN HA实现,尽管该版本目前为beta版,但考虑到该方案采用了Hadoop 2.0中自带的HA框架实现(HDFS HA和MapReduce HA均采用该框架实现),因此,具有一定通用性,本文将介绍CDH5-beta中的YARN HA实现。
本文介绍了Hadoop YARN中权限与日志聚集相关配置和优化参数。
Hadoop YARN同时支持内存和CPU两种资源的调度(默认只支持内存,如果想进一步调度CPU,需要自己进行一些配置),本文将介绍YARN是如何对这些资源进行调度和隔离的。
为了将一个计算框架运行于YARN之上,用户需要开发一个组件—ApplicationMaster。作为一个开始,YARN首先支持的计算框架是MapReduce,YARN为用户实现好了MapReduce的ApplicationMaster,也就是本文要介绍了MRAppMaster。
本文介绍了Hadoop YARN中MapReduce相关配置和优化参数。
本文介绍了Hadoop YARN中RM与NM相关配置和优化参数。
截至目前,Apache Hadoop版本分为两代,我们将第一代Hadoop称为Hadoop 1.0,第二代Hadoop称为Hadoop 2.0。本文介绍了Hadoop版本演化以及如何选择合适的Hadoop版本。
DistCp是Apache Hadoop自带的工具,目前存在两个版本,distcp1和distcp2,fastcopy是Facebook Hadoop中自带的,相比于Distcp,它能明显加快同节点数据拷贝速度,尤其是Hadoop 2.0稳定版发布后,当需要在不同NameNode间(HDFS Federation)迁移数据时,FastCopy将发挥它的最大用武之地。
大家都知道hadoop 1.0中存在的问题,比如HDFS中NameNode单点故障,NameNode内存受限制约集群扩展性,MapReduce中的JobTracker单点故障,无法支持多种计算框架等,而在最新发布的hadoop 2.0稳定版hadoop 2.2.0中,这些问题都貌似得到了完美的解决,那么,我们是否可认为hadoop 2.0是一个非常完美的系统,不再存在任何问题了呢?本文尝试回答这个问题。