汇总运行在Hadoop YARN上的开源系统


本博客微信公共账号:hadoop123(微信号为:hadoop-123),分享hadoop技术内幕,hadoop最新技术进展,发布hadoop相关职位和求职信息,hadoop技术交流聚会、讲座以及会议等。二维码如下:


本文汇总了目前正在进行中的一些尝试将系统运行在YARN上的项目(很多项目狠不完善,有兴趣的可以参与进去,这是机会。),这些项目涉及分布式领域各个方面的系统,包括离线处理、在线计算、图算法、迭代式算法等,从这些项目可以看出来,在将来,YARN将变成一个轻量级的IAAS层,统一管理和调度各种系统,进而逐步实现所谓的“大集群理念”。
1. MapReduce On YARN:YARN天生支持,目前已非常完善(从YARN将要发布2.1.0-beta版可看出,较之前版本,这一块基本没有修改)。
2. Tez On YARN:一个DAG计算框架,直接修改自MapReduce,继承了MapReduce的扩展性好和容错性好等优点,https://issues.apache.org/jira/browse/TEZ
3. Storm On YARN:实时计算框架Storm运行在YARN上,https://github.com/yahoo/storm-yarn ,项目状态:开发进行中,已发布一个版本。
4. Spark On YARN:实时/内存计算框架Spark运行在YARN上:https://github.com/tweetmagik/spark-yarn ,项目状态:已可用。
5. BSP On YARN:BSP模型在YARN上的实现:https://github.com/jpatanooga/KnittingBoar ,项目状态:发布一个实验版本。
6. HBase On YARN:HBase运行在YARN上,https://issues.apache.org/jira/browse/HBASE-4329,项目状态:进行中,Hortonworks开源的Hoya:http://hortonworks.com/blog/introducing-hoya-hbase-on-yarn/,项目状态:进行中。
7. Kafka On YARN:Kafka运行在YARN上,https://github.com/kkasravi/kafka-yarn,项目状态:进行中。
8. Giraph On YARN:图算法库运行在YARN上,https://issues.apache.org/jira/browse/GIRAPH-13 ,项目状态:进行中。
9. MPI on YARN:MPI运行在YARN上,https://issues.apache.org/jira/browse/MAPREDUCE-2911 ,项目状态:进行中(该项目是所有项目中最难的,简单将mpich移植打破YARN上,比如这个实现:mpich2-yarn,意义不大,YARN当前的调度模型决定了难以将MPI移植到YARN上,同时保证MPI本身的各种优化机制不丢失)。
直接在YARN上编写和管理应用程序是比较麻烦的,因此在这两方面,也有一些项目在进行中:
10. YARN Application Managementhttp://continuuity.github.io/weave/ ,项目状态:已可用。
11. Write application on YARNhttps://github.com/cloudera/kitten ,项目状态:已可用。

原创文章,转载请注明: 转载自董的博客

本文链接地址: http://dongxicheng.org/mapreduce-nextgen/run-systems-on-hadoop-yarn/

作者:Dong,作者介绍:http://dongxicheng.org/about/

本博客的文章集合:

Leave a Comment

发表评论

电子邮件地址不会被公开。 必填项已用*标注

*

您可以使用这些HTML标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>

6 Comments to “汇总运行在Hadoop YARN上的开源系统”

你所说的MPI自身优化机制与Yarn调度之间的矛盾,能具体点么?

[回复]

Dong 回复:

做MPI比较深的话,如果让MPI执行效率最高,通常需绑定CPU等,YARN现在做不到。

[回复]

回复

[...] (3)Storm On YARN:尝试将Storm运行在YARN上,这将来众多好处,具体本文将详细介绍。Storm On YARN最有名是Yahoo!的开源实现,具体参考:Storm On YARN。将Storm运行在YARN上并不是一件难事,但重要的是,它给我们开了一扇窗,我们可通过该项目实现HBase On YARN, Spark On YARN,Kafka On YARN等有意义的工作,具体参考我的这篇文章:汇总运行在Hadoop YARN上的开源系统。 [...]

回复

[...] 但必须以超链接形式标明文章原始出处和作者信息及版权声明 网址:http://dongxicheng.org/mapreduce-nextgen/run-systems-on-hadoop-yarn/ [...]

回复

[...] (3)Storm On YARN:尝试将Storm运行在YARN上,这将来众多好处,具体本文将详细介绍。Storm On YARN最有名是Yahoo!的开源实现,具体参考:Storm On YARN。将Storm运行在YARN上并不是一件难事,但重要的是,它给我们开了一扇窗,我们可通过该项目实现HBase On YARN, Spark On YARN,Kafka On YARN等有意义的工作,具体参考我的这篇文章:汇总运行在Hadoop YARN上的开源系统。 [...]

回复