当前位置: 首页>>Frameworks (Spark) On YARN>> 阅读正文

Apache Spark探秘:利用Intellij IDEA构建开发环境

Category: Frameworks (Spark) On YARN View: 37,211 Author: Dong
,

  • 评论 (4)
  • 引用通告 (4)
发表评论 发起引用

  • 1楼P.L 回复

    Post: 2014-05-09 13:28

    董老师您好,您能写一篇关于spark各种运行模式提交作业的文章么?官网说的不清楚,spark提交自己写的jar包太费劲了,怎么提交都提交不上去,各种很奇怪的错误。官网的例子能成功提交,但是自己写的jar包就提交不上去,感谢

    [回复]

  • 2楼O.Y 回复

    Post: 2014-05-19 14:45

    董老师您好,我按照您这方法将我的代码打包成jar放在集群上,当我用集群的某一台机子跑local[n]模式可以出正确结果,但用集群模式spark://hostname:7077时却会出错Exception in thread “main” org.apache.spark.SparkException: Job aborted: Task 2.0:1 failed 4 times (most recent failure: Exception failure: java.lang.ClassNotFoundException: nest.MatrixEntry),这可能是哪些地方出现问题呢?缺乏什么依赖包,或集群搭建有问题?我的集群是spark-0.9.0-incubating版本的。望得到您的指导,多谢!

    [回复]

    O.Y 回复:

    刚刚问题中MatrixEntry是个样本类。另外用很简单的wordcount来跑也会报错: Exception failure: java.lang.ClassNotFoundException: App$$anonfun$1。这个“$$anonfun$1”有什么作用代表什么呢?谷歌查了下也有人出现这种问题,但似乎没有人给出解答。望您能给予一些建议指导。

    [回复]

    hakunami 回复:

    你需要把导出的Jar包分发到各个节点上,如果你用的是standalone模式的画。NFS或者HDFS都行。然后context里面设置对应的路径。

    [回复]

    Dong 回复:

    可能是mesos集群问题,从错误上可以看出来task跑起来了,但是没有找到类,因此,首先确保有这个类,其次确保这个类所在的jar包被分发到mesos的各个节点上了。

    [回复]

    xu 回复:

    董老师,你好!我尝试在spark的代码中操作hbase数据库,打成jar包时如果把hbase的依赖包删掉的话,在集群上运行也报java.lang.ClassNotFoundException!可以通过修改spark集群上的配置来解决吗?

    [回复]

    xu 回复:

    spark打成jar包后是用spark-submit提交到yarn集群上的,集群上面都装了hbase,在spark-env.sh中配置了路径export SPARK_CLASSPATH=/home/hadoop/hbase-0.98.3-hadoop2/lib/* 也没有效果,请问要怎么配置才能够使jar包中去掉hbase的依赖包后,也能够跑在集群呢~ 谢谢!

    [回复]

  • 3楼x 回复

    Post: 2015-01-18 06:36

    老师您好,我想问下如果怎么以非local方式运行呢?
    主机是Ubuntu
    装了三台虚拟机 一个Master两个Worker
    我想在主机中(非虚拟机)中用IDEA进行开发…
    在配置是的时候 local要改成什么呢?

    [回复]

  • 4楼ck 回复

    Post: 2015-04-09 04:58

    老師您好,我的狀況是先在一台機器上部署了standalone的spark,後在另一台有視窗介面的linux做了文章內的操作,但我執行要連接spark時,會有
    「WARN AppClient$ClientActor: Could not connect to akka.tcp://sparkMaster@xx.yy:7077: akka.remote.InvalidAssociation: Invalid address: akka.tcp://sparkMaster@xx.yy:7077」這樣的錯誤訊息。

    不知道是什麼地方有問題?還想請問是,執行的機器需要是spark的slave嗎?(或是其他的設定,不然我也好奇他是如何知道xx.yy的位址在哪?)

    [回复]

发表评论