Hadoop YARN最近几个新特性


本博客微信公共账号:hadoop123(微信号为:hadoop-123),分享hadoop技术内幕,hadoop最新技术进展,发布hadoop相关职位和求职信息,hadoop技术交流聚会、讲座以及会议等。二维码如下:


本文介绍Hadoop YARN最近版本中增加的几个非常有用的特性,包括:

(1)ResourceManager HA

在apache hadoop 2.4或者CDH5.0.0版本之后,增加了ResourceManger HA特性,支持基于Zookeeper的热主备切换,具体配置参数可以参考Cloudera的文档:ResourceManager HA配置

需要注意的是,ResourceManager HA只完成了第一个阶段的设计,即备ResourceManager启动后,会杀死之前正在运行的Application,然后从共享存储系统中读取这些Application的元数据信息,并重新提交这些Application。启动ApplicationMaster后,剩下的容错功能就交给ApplicationMaster实现了,比如MapReduce的ApplicationMaster会不断地将完成的任务信息写到HDFS上,这样,当它重启时,可以重新读取这些日志,进而只需重新运行那些未完成的任务。ResourceManager HA第二个阶段的任务是,备ResourceManager接管主ResourceManager后,无需杀死那些正在运行的Application,让他们像任何事情没有发生一样运行下去。

(2) 磁盘容错

在apache hadoop 2.4或者CDH5.0.0版本之后,增加了几个对多磁盘非常友好地参数,这些参数允许YARN更好地使用NodeManager上的多块磁盘,相关jira为:YARN-1781,主要新增了三个参数:

yarn.nodemanager.disk-health-checker.min-healthy-disks:NodeManager上最少保证健康磁盘比例,当健康磁盘比例低于该值时,NodeManager不会再接收和启动新的Container,默认值是0.25,表示25%;

yarn.nodemanager.disk-health-checker.max-disk-utilization-per-disk-percentage:一块磁盘的最高使用率,当一块磁盘的使用率超过该值时,则认为该盘为坏盘,不再使用该盘,默认是100,表示100%,可以适当调低;

yarn.nodemanager.disk-health-checker.min-free-space-per-disk-mb:一块磁盘最少保证剩余空间大小,当某块磁盘剩余空间低于该值时,将不再使用该盘,默认是0,表示0MB。

(3)资源调度器

Fair Scheduler:Fair Scheduler增加了一个非常有用的新特性,允许用户在线将一个应用程序从一个队列转移到另外一个队列,比如将一个重要作业从一个低优先级队列转移到高优先级队列,操作命令是:bin/yarn application -movetoqueue appID -queue targetQueueName,相关jira为:YARN-1721

Capacity Scheduler:Capacity Scheduler中资源抢占功能经过了充分的测试,可以使用了。

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-recently-new-features/

作者:Dong,作者介绍:http://dongxicheng.org/about/

本博客的文章集合:

Leave a Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

10 Comments to “Hadoop YARN最近几个新特性”

在apache hadoop 4.4或者CDH5.0.0版本之后, 确定是hadoop4.4版本???

[回复]

Dong 回复:

是2.4.0,呵呵。

[回复]

dongmoo 回复:

cdh5.0.0版本是基于hadoop2.3.0的, 应该还不包括hadoop2.4的新特性吧??

[回复]

回复

贵博客的内容非常专业,已收录到多遛遛博客网:http://www.duo66.com/blog-151.html,如有意见,欢迎反馈。

[回复]

回复

在某个文件夹下创建好快照,该文件夹下的文件成为快照文件,后续上传到这个文件夹下的文件并不是快照文件,请问这是为什么,另外,创建快照时,具体都做了些什么,它会对目录下的文件元数据做了哪些改变吗?

[回复]

回复

[...] 本文链接地址: http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-recently-new-features/ [...]

回复

我一直不太明白,为什么装CDH4的时候需要装proxyserver,请问这个proxyserver在集群中干什么的啊?

[回复]

回复

[...] Hadoop YARN最近几个新特性 var jiathis_config = {data_track_clickback:'true'}; *{font-style:normal;} .content img{ vertical-align:middle; text-align:center; } .article-content div,span,p,img { height: auto; max-width: auto; } var cpro_id = "u1545932"; var cpro_id = "u1603290"; 您在找热搜关键词: var sogou_ad_id=331843; var sogou_ad_height=15; var sogou_ad_width=468; Hadoop YARN最近几个新特性: 作者:Dong | 新浪微博:西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-recently-new-features/本博客的文章集合:http://dongxicheng.org/recommend/ [...]

回复

[...] Hadoop YARN最近几个新特性 IT新闻 马开东 3个月前 (05-10) 3浏览 0评论 作者:Dong | 新浪微博:西成懂 | 可以转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址:http://dongxicheng.org/mapreduce-nextgen/hadoop-yarn-recently-new-features/本博客的文章集合:http://dongxicheng.org/recommend/ [...]

回复

我用CDH5.0配置了ResourceManager HA,测试的时候提交mr任务 中途kill掉 active 的进程,mr程序会马上报错 提示不可链接 ,并没有自动到新的active机器上重新执行 ,但是备机的状态自动变为了active ,不知道是哪里配置有问题吗

[回复]

回复