当前位置: 首页>>数据挖掘>> 阅读正文

Hadoop分布式环境下的数据抽样

Category: 数据挖掘 View: 9,775 Author: Dong
, , ,

  • 评论 (4)
  • 引用通告 (0)
发表评论 发起引用

  • 1楼wanglei 回复

    Post: 2013-02-20 09:39

    哥,你读了多少本书啊,发现你差不多每个博客资料都至少引用一本书,这次又引用的编程珠极,你是大神,崇拜你!!!向你学习!!!

    [回复]

  • 2楼vigiles 回复

    Post: 2013-07-23 13:05

    作为新手,果真看得相当懵懂…

    [回复]

  • 3楼google fans 回复

    Post: 2013-10-24 03:38

    google那个题蓄水池做法貌似有问题
    完全随机选取的意思应该是每个数被选取到的概率相等。从N个数中选k个数,每个数被选到的概率应该是k/N。按照蓄水池方法,最后一个数被第一次选中的概率是1/N,然后还要和k个已有的数pk,被选中的概率其实是k/[N(k+1)],比k/N小了太多

    [回复]

  • 4楼worthy忆 回复

    Post: 2013-12-18 14:16

    写得非常棒

    [回复]

目前还没有任何Trackbacks和Pingbacks.
发表评论