当前位置: 首页>>Frameworks (Spark) On YARN>> 阅读正文

运行在YARN上的计算框架

Category: Frameworks (Spark) On YARN View: 10,165 Author: Dong
, , , , ,

  • 评论 (2)
  • 引用通告 (0)
发表评论 发起引用

  • 1楼zyc 回复

    Post: 2013-12-18 08:11

    您好,我想请问在YARN上能不能运行自定义的一个计算框架,比如我对MapReduce-On-YARN进行改写,作为自定义的计算框架运行到YARN上,这样既不影响既有框架,又能用自定义框架满足特定需求

    [回复]

    Dong 回复:

    可以的,MapReduce在YARN上属于客户端开发库,不必实现部署好,每个应用程序的MapReduce库(ApplicationMaster、mapreduce API等)可以是不一样的,尽管默认一样。 YARN的出现,就是鼓励大家开发自己的计算框架。

    [回复]

    zyc 回复:

    如果我有这样一个需求:将计算过程推迟到查询阶段进行,但需要为用户的数据分析请求提供实时响应。这种情况应该属于实时计算吧,但好像又不是很适合用storm,您有什么好的建议么?我是不是能够通过改写MapReduce来提高响应速度呢?期待您的回答,十分感谢!

    [回复]

    Dong 回复:

    mapreduce满足不了,你可以使用类似storm、spark、hbase、impala系统,看看哪种适合,其中spark和impala支持类SQL语言,其他的只有API。

    [回复]

    zyc 回复:

    看到一位网友的博客有这样一段话:“如果要online分析,我为什么不选择Storm/S4这些流式数据分析平台,那不更有效么?Storm/S4的特点就是一次分析结束,数据就没了!也就是说,数据没有“重放性”。很多时候分析不是一次就可以做完的。增量分析、定时分析、延迟分析、迭代分析等,都需要想要分析时数据还在。所以Hadoop的使用与Storm/S4的应用场景还是有差别的。”(http://langyu.iteye.com/blog/1544227)
    能请教一下您怎么理解他这段话么?

    [回复]

    Dong 回复:

    是这样的,通常而言,没有一个系统搞定所有事情,所有这些系统都是工具,是帮你做事情的帮手,聪明的人总是善用这些工具。不要指望一个工具解决所有问题,一般混用他们。举个例子,大部分复杂点的应用都有在线和离线两部分,在线的可以使用storm/hbase这类系统,离线部分可以使用hadoop。你所说的storm一次分析结束也是你自己这么设计的,你完全可以将storm分析后的数据写到Hadoop中,以便于增量、迭代或者延迟分析,把这些系统整合用起来。每种工具都有自己的局限和特定的应用场景,而实际应用场景是复杂的,因此我们必须了解各个工具,并使用他们的“长项”,不要指望一个系统解决所有问题。

    [回复]

    zyc 回复:

    好的,十分感谢您的耐心解答,受益良多

    [回复]

  • 2楼isbest 回复

    Post: 2013-12-20 02:23

    看到1楼的问答,我有这样一个问题:比如我有一个数据分析平台,用户通过网络上传要分析的数据集,选择一种已集成在平台中的分布式数据分析方法(mapreduce)对其进行分析,这种情况下不可能提前批处理,流处理也没用,造成给用户较长的响应时间,有什么解决方案能减少响应时间么?

    [回复]

目前还没有任何Trackbacks和Pingbacks.
发表评论