当前位置: 首页>>Frameworks (Spark) On YARN>> 阅读正文

Apache Spark探秘:三种分布式部署方式比较

Category: Frameworks (Spark) On YARN View: 16,380 Author: Dong

  • 评论 (7)
  • 引用通告 (2)
发表评论 发起引用

  • 1楼alex 回复

    Post: 2014-03-31 02:59

    写的很赞!
    文中”鉴于粗粒度模式会造成大量资源浪费,Spark On YARN还提供了另外一种调度模式:细粒度模式”,应该是Spark On Meson吧?

    [回复]

    alex 回复:

    Spark On Mesos

    [回复]

    Dong 回复:

    是的,已经改了,谢谢。

    [回复]

  • 2楼zhuting 回复

    Post: 2014-04-13 01:36

    董老师好,看了你的文档受益匪浅。我有个问题请教您一下:
    我在使用Spark(0.9.0)访问HBase(0.96)时,以standalone模式运行报错:
    TableInputFormatBase:canot resolve the host name for node-5/192.XXX.XXX.XX,because of javax.naming.CommunicationException:DNS error [Root exception is java.net.PortUnreachableException:ICMP Port Unreachable]
    这个是什么问题造成的?
    (注:我以local模式运行没有出问题)

    [回复]

    tomcat 回复:

    我也是同样的问题。不知道如何解决,同问,谢谢董老师指点

    [回复]

  • 3楼Rocky 回复

    Post: 2014-05-04 09:00

    董老师,看了你的文章受益匪浅。我想请教你一个问题,spark在standalone模式下只支持FIFO模式,请问是否在集群中,多个Job提交的时候不支持并发执行?在mesos 和yarn的情况下,spark中提交作业时是否也不支持多个Job作业的提交执行,谢谢!

    [回复]

    Dong 回复:

    FIFO模式下,总体上讲是串行执行,但是如果前面的作业不能用光集群中所有的资源,则多个job可同时执行。在mesos和yarn下,有多队列调度器,多个作业可以并行执行。

    [回复]

  • 4楼IT坨坨 回复

    Post: 2014-06-06 06:05

    董老师,您好!
    我现在将shark和yarn集成,可是现在怎么启动多个worker还不知道,希望得到老师指点,现在是只启动2个worker.

    [回复]

  • 5楼chenfeng 回复

    Post: 2014-07-09 10:12

    hi,董老师,您好!
    我现在将Spark 1.0和hadoop 2.4.1 Yarn集群集成,其中spark和hadoop已经跑配置过snappy解压缩,现在spark可以读hdfs上的文件并且可以对该文件做count()统计:代码如下所示:
    val file = sc.textFile(“hdfs://appcluster/user/hive/warehouse/test/x.txt”)
    val result = file.flatMap(line => line.split(“\t”)).map(word => (word, 1)).reduceByKey(_ + _)
    result.count
    但是不能做保存操作:
    result.saveAsTextFile(“hdfs://appcluster/user/spark/test/result”)

    异常信息如下:
    14/07/09 09:17:43 WARN scheduler.TaskSetManager: Loss was due to java.lang.UnsatisfiedLinkError
    java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy()Z
    at org.apache.hadoop.util.NativeCodeLoader.buildSupportsSnappy(Native Method)
    at org.apache.hadoop.io.compress.SnappyCodec.checkNativeCodeLoaded(SnappyCodec.java:62)
    at org.apache.hadoop.io.compress.SnappyCodec.createCompressor(SnappyCodec.java:142)
    at org.apache.hadoop.io.compress.SnappyCodec.createOutputStream(SnappyCodec.java:97)
    at org.apache.hadoop.mapred.TextOutputFormat.getRecordWriter(TextOutputFormat.java:136)
    at org.apache.spark.SparkHadoopWriter.open(SparkHadoopWriter.scala:89)
    at org.apache.spark.rdd.PairRDDFunctions.org$apache$spark$rdd$PairRDDFunctions$$writeToFile$1(PairRDDFunctions.scala:773)
    at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$2.apply(PairRDDFunctions.scala:788)
    at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$2.apply(PairRDDFunctions.scala:788)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:111)
    at org.apache.spark.scheduler.Task.run(Task.scala:51)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:187)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

    [回复]

    潇晓 回复:

    我也遇到此问题 不知你是否解决了???

    [回复]

    javali.org 回复:

    这个问题我也碰到了,已解决:
    参见 http://www.javali.org/document/dive-into-spark-rdd.html

    [回复]

  • 6楼汉堡 回复

    Post: 2014-09-29 04:44

    java.lang.UnsatisfiedLinkError 这种问题貌似和类加载或者类的版本有关

    [回复]

  • 7楼十一路 回复

    Post: 2015-07-02 08:34

    最近跟家林老师交流,他推荐全新部署的系统直接上 standalone

    [回复]

发表评论