滚雪球抽样算法的实现

  统计/机器学习 抽样方法    浏览次数:7523        分享
0

有了解滚雪球算法的吗?

我知道这个算法的大概的意思,但是想实现这个算法,却没有什么思路,有哪位大神可以给个思路或者伪代码的?谢谢!

 

ZackLi   2017-06-18 12:51



   1个回答 
3

这个问题一直没人回答,我讲一下我的理解。

有时候大规模抽样的成本很高,所以我们就需要一些技巧。滚雪球抽样就是这种技巧,它本质上就是“一传十,十传百”。基本步骤是:

1. 从一个小的范围内抽取符合条件的样本

2. 从符合条件的样本顺藤摸瓜,从每个合格样本在小范围外有联系的样本中再挑出合格样本

3. 反复

这个方法常用在社交网络,比如说要调查喜欢极限运动的人,这种人的总体很小,所以对整体人口调查基本上大海捞针。突破口就是:

1. 先找到一两个喜欢极限运动的人

2. 看他们的朋友(在网络结构里就是一度连接)里有哪些人也是喜欢极限运动的

3. 再看朋友的朋友

这样就会很快收集到足够多的样本

SofaSofa数据科学社区DS面试题库 DS面经

matt   2019-04-16 08:22



  相关讨论

bootstrap 一般用在哪些方面

两阶段抽样和分层抽样是一回事吗?

Jackknife vs Bootstrap

parametric bootstrap和nonparametric bootstrap的区别是什么?

蓄水池抽样算法的问题

自助法(bootstrap)的0.632是怎么来的?

python产生一个随机置换?

python对给定的集合进行有放回抽样?

把训练集分成n份,用同种算法在每个子训练集上训练再把预测平均,效果如何?

SMOTE对于categorical feature如何处理?

  随便看看

推荐系统中的召回(recall)是什么意思?

wide-deep模型里的wide和deep分别是指什么意思?

sklearn可以用gpu加速吗?

决策树、随机森林中的多重共线性问题

怎么在已有的dataframe中插入一个新列(Pandas)