当前位置: 首页>>hadoop 2.0之YARN>> 阅读正文

Hadoop DistributedCache详解

Category: hadoop 2.0之YARN View: 12,989 Author: Dong
, , ,

  • 评论 (6)
  • 引用通告 (1)
发表评论 发起引用

  • 1楼hailan 回复

    Post: 2014-03-06 08:42

    filecache怎么中map reduce中使用呢 如果放到map或者reduce中进行读取的话 每一次调用都会读一遍 觉得很不靠谱 是放到main中读取么 然后添加到上下文中?

    [回复]

    Dong 回复:

    放到Mapper或Reducer构造函数中,亲。

    [回复]

  • 2楼foolson 回复

    Post: 2014-03-09 07:30

    老大,你的网站怎么不加一个搜索框啊。。

    [回复]

    Dong 回复:

    利用google即可,我的所有网页,google都有收录,比如搜索“Hadoop Streaming dongxicheng”

    [回复]

  • 3楼smilence 回复

    Post: 2014-03-11 01:52

    董老师您好,我有个疑问啊,既然“HDFS是缓存文件的必经之路”,那为什么Map不直接加载HDFS中的文件呢?为什么一定得用DistributedCache先下载到本地节点?

    [回复]

    Dong 回复:

    因为Map或Reduce依赖的外部资源大部分是本地资源,比如jar包,可执行文件等,这些资源,必须在本地才能使用,比如jar包必须加到环境变量CLASSPATH中,而CLASSPATH是不能识别HDFS文件的,JVM不支持;另外,HDFS上的文件是不可以直接执行的,必须放到本地,这个除非支持远程执行或者远程调用,这个在默认情况下,操作系统是不支持的。 除了上面这些原因,还有一个是,文件放到本地更容易在程序中使用。

    [回复]

    smilence 回复:

    谢谢!

    [回复]

  • 4楼东方CJ 回复

    Post: 2014-03-13 03:37

    很喜欢这种表达方式。。。

    [回复]

  • 5楼wwtfs 回复

    Post: 2014-03-17 07:04

    你好,我想问一下,如何实时的获取mapreduce运行作业的信息呢?例如,在Balancer里想实时的获取作业的运行信息,应该用到哪些接口呢?毕设用的。非常感谢

    [回复]

    Dong 回复:

    这个可以通过JobTracker或者ApplicationMaster对外提供的API获取,具体可以查看一下代码,我不罗列了。

    [回复]

  • 6楼gavin 回复

    Post: 2014-08-26 02:37

    “对于一些频繁使用的字典,不建议存放在客户端,每次通过-files指定”

    董老师,那对于这种情况,你建议用什么解决方案呢?

    [回复]

发表评论