有了解滚雪球算法的吗?
我知道这个算法的大概的意思,但是想实现这个算法,却没有什么思路,有哪位大神可以给个思路或者伪代码的?谢谢!
1个回答
这个问题一直没人回答,我讲一下我的理解。
有时候大规模抽样的成本很高,所以我们就需要一些技巧。滚雪球抽样就是这种技巧,它本质上就是“一传十,十传百”。基本步骤是:
1. 从一个小的范围内抽取符合条件的样本
2. 从符合条件的样本顺藤摸瓜,从每个合格样本在小范围外有联系的样本中再挑出合格样本
3. 反复
这个方法常用在社交网络,比如说要调查喜欢极限运动的人,这种人的总体很小,所以对整体人口调查基本上大海捞针。突破口就是:
1. 先找到一两个喜欢极限运动的人
2. 看他们的朋友(在网络结构里就是一度连接)里有哪些人也是喜欢极限运动的
3. 再看朋友的朋友
这样就会很快收集到足够多的样本
SofaSofa数据科学社区DS面试题库 DS面经