新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》将出版
我最近将出版的一本新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》,这本书与我之前写的书籍 《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》是一个系列,写作思路也是一样的,但是讲解的是不同系统,彼此之间没有重复。欢迎大家关注。
{关注大规模数据处理,包括Hadoop,YARN,Spark,Flink,Presto等}
我最近将出版的一本新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》,这本书与我之前写的书籍 《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》是一个系列,写作思路也是一样的,但是讲解的是不同系统,彼此之间没有重复。欢迎大家关注。
学习Hadoop YARN—Hadoop 2.0新引入的通用资源管理系统过程中,总会遇到Container这一概念,本文将尝试介绍Container这一概念。
Hadoop 2.0的第一个稳定版本2.2.0于2013年10月15如发布了,这个版本是 继1.0.0版本后,又一个具有里程碑意义的版本,这意味着Hadoop进入2.0时代。本文尝试解析Hadoop 2.2.0中包含的新特性。
同Hadoop 1.0一样,Hadoop 2.0中的认证机制采用Kerbero和Token两种方案,而授权则是通过引入访问控制列表(Access Control List,ACL)实现的,本文分别对它们进行介绍。
Hadoop 2.0内核由三个分支组成,分别是HDFS、MapReduce和YARN,而Hadoop生态系统中的其他系统,比如HBase、Hive、Pig等,均是基于这三个系统开发的。截止本文发布,Hadoop 2.0的这三个子系统的单点故障均已经解决或者正在解决(Hadoop HA),本文将为大家介绍当前的进度和具体的解决方案。
不管在MRv1还是MRv2中,MapReduce应用程序编程接口(API)是一致的。为了能够让用户应用程序平滑迁移到Hadoop 2.0中,MRv2尽可能得保证编程接口的向后兼容性,但由于MRv2本身进行了改进和优化,它在向后兼容性方面存在少量问题,而这正是本文所要介绍的。
在阅读Hadoop 2.0的相关资料时,很多人将一些概念混淆了,本文将对Hadoop 2.0涉及到的术语进行比较全面的介绍。
在Hadoop中,资源管理是很重要的一个模块,它直接决定了资源的组织形式和分配方式,是其他功能的基础,而伴随着Hadoop的优化和升级,资源管理系统在发生的重大变化,本文将对比Hadoop 1.0和Hadoop 2.0中的资源管理方案。
随着Hadoop版本的演化,Fair Scheduler和Capacity Scheduler的功能越来越完善,包括层级队列组织方式、资源抢占、批量调度等,本文对比了Fair Scheduler和Capacity Scheduler两个调度器的异同。
本文以C++语言为例介绍了thrift RPC的使用方法,包括对象序列化和反序列化,数据传输和信息交换等。