初学者运行MapReduce作业时,经常会遇到各种错误,由于缺乏经验,往往不知所云,一般直接将终端打印的错误贴到搜索引擎上查找,以借鉴前人的经验。然而,对于hadoop而言,当遇到错误时,第一时间应是查看日志,日志里通产会有详细的错误原因提示,本文将总结Hadoop MapReduce日志存放位置,帮助初学者定位自己遇到的错误。

在Cloudera公司最新发布的CDH5(基于apache hadoop 2.2.0)中,自带了YARN HA实现,尽管该版本目前为beta版,但考虑到该方案采用了Hadoop 2.0中自带的HA框架实现(HDFS HA和MapReduce HA均采用该框架实现),因此,具有一定通用性,本文将介绍CDH5-beta中的YARN HA实现。

DistCp是Apache Hadoop自带的工具,目前存在两个版本,distcp1和distcp2,fastcopy是Facebook Hadoop中自带的,相比于Distcp,它能明显加快同节点数据拷贝速度,尤其是Hadoop 2.0稳定版发布后,当需要在不同NameNode间(HDFS Federation)迁移数据时,FastCopy将发挥它的最大用武之地。

我最近将出版的一本新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》,这本书与我之前写的书籍 《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》是一个系列,写作思路也是一样的,但是讲解的是不同系统,彼此之间没有重复。欢迎大家关注。