如何对流数据(stream data)进行无差别抽样

  统计/机器学习 抽样方法 无监督学习 数据预处理    浏览次数:3515        分享
1

比如我有一个在线的列表,但是这个在不断的增加新的数据,我应该如何设计抽样方法才能使每个元素被抽到的概率一样呢

 

sjtufrc   2017-09-08 03:21



   1个回答 
3

这个问题应该就是大名鼎鼎的蓄水池问题。对应的解决方法就是蓄水池算法。

这里已经有人问过了。蓄水池抽样算法的问题


SofaSofa数据科学社区DS面试题库 DS面经

KingBug   2017-09-08 03:35



  相关讨论

SMOTE对于categorical feature如何处理?

什么是SMOTE sampling方法?

滚雪球抽样算法的实现

Jackknife vs Bootstrap

自助法(bootstrap)的0.632是怎么来的?

蓄水池抽样算法的问题

parametric bootstrap和nonparametric bootstrap的区别是什么?

两阶段抽样和分层抽样是一回事吗?

bootstrap 一般用在哪些方面

python对给定的集合进行有放回抽样?

  随便看看

seaborn.distplot直方图的y轴的数值是什么意思?

逻辑回归模型中变量的系数怎么理解?

python里怎么表示科学计数法?

怎么理解tweedie分布?

怎么对pandas dataframe的列求众数