当前位置: 首页>>Frameworks (Spark) On YARN>> 阅读正文

Apache Spark探秘:实现Map-side Join和Reduce-side Join

Category: Frameworks (Spark) On YARN View: 13,756 Author: Dong
,

  • 评论 (6)
  • 引用通告 (0)
发表评论 发起引用

  • 1楼明升M88开户 回复

    Post: 2014-04-03 03:39

    很好的文章 讲解的很清楚

    [回复]

  • 2楼鱼人 回复

    Post: 2014-06-04 05:11

    菜鸟学习了,很不错的文章,谢谢分享。

    [回复]

  • 3楼easyrequest 回复

    Post: 2014-08-13 03:53

    你的第一个问题也是我关心和疑问的,解决了吗?

    [回复]

  • 4楼sky88088 回复

    Post: 2014-08-18 09:52

    你好,说到join问题,像hive的bucket join,将数据分别按key进行hash后,放到同一个节点进行join,也是一种很好思路,这里我想请教一下直接用Mapreduce的话,怎么在map阶段指定数据分发到哪个节点呢?

    [回复]

    Navy.Chen 回复:

    broadcast字面意思应该是广播给所有节点吧,毕竟小表嘛???

    [回复]

  • 5楼hash-x 回复

    Post: 2015-02-02 16:17

    董老师您好,我有一个问题需要请教您,实验室的导师给的要求是这样的,scala编写程序读取excel表格,比如10张表,然后做join,思路是什么?可行吗?Scala有操作excel的库吗?我找到一个,但是思路不是很清晰,希望可以得到指点。

    [回复]

  • 6楼9527 回复

    Post: 2015-02-12 13:21

    求解答问题2
    val newRDD = logRDD.map { case (x, y) => {
    if (!x.toString.equals(“1502101045378880″)) (x,y)
    }
    为什么我的过滤后记录数没有变

    [回复]

目前还没有任何Trackbacks和Pingbacks.
发表评论