当前位置: 首页>>hadoop 2.0之YARN>> 阅读正文

Hadoop 2.0中作业日志收集原理以及配置方法

Category: hadoop 2.0之YARN View: 10,356 Author: Dong
, ,

  • 评论 (6)
  • 引用通告 (2)
发表评论 发起引用

  • 1楼ynu_smile 回复

    Post: 2014-03-13 08:45

    跪求大神,,,如果想在程序中获取当前用户提交的作业的运行时间怎么获取,,,也就是说,,,如何读取历史上某个程序的运行时间。。。跪求解答。。。

    [回复]

    Dong 回复:

    在jobhistory里记录了每个作业提交时间,结束时间,每个task提交时间,运行时间等等,到jobhistory日志里看吧。

    [回复]

    H.annuus 回复:

    我的hadoop2.2里没有jobhistory这个文件夹,那要怎么获取作业提交、结束和运行时间呢?

    [回复]

    H.annuus 回复:

    你现在解决了吗?求指导怎么获取作业的运行时间。

    [回复]

    Dong 回复:

    hadoop 2.0也有jobhistory,是由作业的applicationmaster输出的,由于作业的applicationmaster可能运行在任意节点上,所以你需要到它运行的节点上找。也可以修改配置将它写到HDFS上,这样便于查找。

    [回复]

    H.annuus 回复:

    那是不是从编号为000001的对应的container日志里找?配置日志聚集的时候是在yarn-site.xml配置吗?

    [回复]

    H.annuus 回复:

    我在yarn-site.xml里这样配置日志聚集可以吗?配完之后我的tmp文件夹里还是没有logs文件夹,是哪里配置出错了吗?

    yarn.log-aggregation-enable
    true
    yarn.log

    yarn.log-aggregation.retain-seconds
    86400
    yarn.log.time

    yarn.log-aggregation.retain-check-interval-seconds
    8640

    [回复]

    H.annuus 回复:

    不好意思,日志聚集的问题已解决,不过我还有一个问题,输出的日志文件里表示作业提交,结束和运行时间的关键字是什么?谢谢!

    [回复]

  • 2楼mr.ruan 回复

    Post: 2014-09-18 02:34

    请教博主,我的hadoop环境如下:两个namenode(一个active一个standy)18台datanode(之前那两台namenode也做datanode)那我现在在配置环境的时候我的配置文件yarn-site.xml在namenode节点的配置有必要和其他datanode节点的一致吗?如果没有必要,那再问下博主哪些需要每个机器一样,哪些只需要在namenode节点配置即可?
    (acl,日志,resourcemanager,nodemanager,等)

    [回复]

  • 3楼zhou 回复

    Post: 2014-10-29 04:01

    董老师,您好:
    我有个非常疑惑的问题,希望您能帮忙解答一下。
    hadoop heapsize的配置一般为多少,如果是根据机器内存来配置的话,大约占多少合适?这个参数的作用是啥呢?是表示hadoop在这台机器上可以使用的堆大小吗?

    [回复]

  • 4楼clamaa 回复

    Post: 2014-11-06 07:47

    请教楼主,当前遇到个问题:在hadoop2.2.0环境中,在FINISHED任务列表中能够看到任务已经成功执行了(状态为SUCCESSED),但是点进去没有历史记录,显示:
    Not Found: job_1413206225298_21733

    而在hdfs的目录中(mapreduce.jobhistory.done-dir)也确实没有找到这个任务的信息,请问这个是由于同步任务历史记录导致的任务失败吗?因为WEB端已经显示成功了,但是却没有结果数据,在任务即将完成时,hadoop内部都做了哪些工作呢?写写

    [回复]

  • 5楼water 回复

    Post: 2014-11-12 07:06

    请教一个问题,错误信息如下:
    14/11/05 03:56:42 INFO mapreduce.Job: map 45% reduce 5%
    14/11/05 03:56:54 INFO mapreduce.Job: map 46% reduce 5%
    14/11/05 03:57:00 INFO mapreduce.Job: Task Id : attempt_1415176203940_0001_r_000000_0, Status : FAILED
    Error: org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#2
    at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:121)
    at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:380)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:162)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1491)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:157)
    Caused by: java.io.IOException: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out.
    at org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl.checkReducerHealth(ShuffleSchedulerImpl.java:323)
    at org.apache.hadoop.mapreduce.task.reduce.ShuffleSchedulerImpl.copyFailed(ShuffleSchedulerImpl.java:245)
    at org.apache.hadoop.mapreduce.task.reduce.Fetcher.copyFromHost(Fetcher.java:323)
    at org.apache.hadoop.mapreduce.task.reduce.Fetcher.run(Fetcher.java:165)
    我用的是hadoop2.4.1。一个master,两个slave。内存4G (free 命令显示只有3759M),硬盘430G,cpu是单核2G。Linux系统。
    目前执行MR,例子程序是hadoop自带的wordcount,当我上传的文件大小为730M的时候,可以出结果,但是当文件为1.5G或者更大,就每次出上面的错误。

    请高手指点,是我什么地方配置的不对么?
    网上说的什么/etc/hosts配置,什么/etc/security/limits.conf的配置,好多建议,我都看了,尝试过,无效。。。

    [回复]

  • 6楼ustcnene 回复

    Post: 2015-03-31 08:47

    写的真好,如果能配合源码分析<>就更好了!

    [回复]

发表评论