当前位置: 首页>>hadoop 2.0之YARN>> 阅读正文

Hadoop 新特性、改进、优化和Bug分析系列3:YARN-392

Category: hadoop 2.0之YARN View: 159,266 Author: Dong
,

  • 评论 (1)
  • 引用通告 (1)
发表评论 发起引用

  • 1楼实习生 回复

    Post: 2013-07-08 02:30

    董,您好,关于调度有几个不明白的地方请教下您:
    1,时间复杂度,Yarn中时O(num of nodes),hadoop是O(num of tasks)这个有些不明白,你看我的理解有没偏差?对于FIFO,在hadoop中,是不是就是有节点汇报心跳,然后遍历所有任务找出优先级最高的满足本地性的任务,调度任务执行;在yarn中根据各个队列资源请求,然后遍历节点,找到合适资源,将容器列表分派给队列。
    2,关于yarn中资源分派采用pull而不是push,AM申请的再发送资源申请rpc的时候,分派的资源不是由该RPC回复得到,为什么还是说采用pull?
    3,我看你有篇博文说到yarn也采用了Dominant resource fairness,这个具体体现在哪个地方?或者有没有资料说明。
    4,我想实现一个有任务预期执行时间的调度策略,就是说假如有A,B,C,D四个任务资源需求相当,但A,B大概执行1天,C,D大概执行1小时,加入A,B在一个节点,C,D在一个节点。一小时后会出现严重的负载不均衡。所以想设计考虑大概时间的调度策略,在yarn一块应该怎么下手,或者您知不知道有什么类似于实现一种Application Master的指导文件?

    [回复]

    Dong 回复:

    1. 是,你理解的对。
    2. AM从RM申请资源,是pull模式,AM要求NM启动container是push模式, NM向RM汇报心跳,是Pull模式。
    3. 这个在源代码里有,Fair Scheduler和Capacity Scheduler实现全市基于DRF,具体可参考:https://issues.apache.org/jira/browse/YARN-2
    4. http://hadoop.apache.org/docs/current/hadoop-yarn/hadoop-yarn-site/WritingYarnApplications.html

    [回复]

    实习生 回复:

    关于第四点,我想问的是有没有类似于这样介绍写applications的指导文件指导编写scheduler?

    [回复]

    Dong 回复:

    没有。

    [回复]

    实习生 回复:

    那关于遍历节点,现在yarn采用的是什么遍历方式,first fit还是random fit还是什么,这个有介绍或者jra吗?麻烦董哥多推荐些关于rm中scheduler资源分派的资料,对这块最近比较好奇,想更深一层了解。

    [回复]

    Dong 回复:

    可认为是random fit。 资料暂时比较少。

    [回复]

    实习生 回复:

    谢谢您~这么说只能读代码了啊!

    [回复]

    实习生 回复:

    对了,董哥,你的邮件是哪个,人搜那个发不过去啊!

    [回复]

    Dong 回复:

    http://dongxicheng.org/about/

    [回复]

    cloudeagle 回复:

    这里random fit具体是指哪种调度器里的策略啊? 怎么我看Fair里是按优先级遍历的啊

    [回复]

    Dong 回复:

    不是按照优先级,可以认为优先级高的获得的资源多,比如一个作业优先级是4,另一个是1,一共有5个CPU,则第一个作业获得4个,第二个获得1个,这个跟按优先级遍历很不一样。

    [回复]

    cloudeagle 回复:

    请问这里不是节点资源到来时,对于每一个请求需要的资源,只要满足即可分配,这样应该是first-fit吧? 为啥你这里认为是random-fit呢?

    [回复]

    cloudeagle 回复:

    噢,我明白了,如果加上delay算法的话,确实是random-fit~

    [回复]

发表评论