当数据量很大(上亿条数据、每条数据上万个特征),如何对线性回归进行并行计算?
4个回答
1. 如果是用投影矩阵来求线性回归,那么这个问题就等同于如何对矩阵进行并行计算(网上这方面资料非常多)。
2.如果是用数值方法来求线性回归,可以考虑mini-batch,也就是abuu说的。
3. 如果考虑分布式计算(也就是把数据切成好N块),可以每个机器或者cpu分配到N分之一的数据,分别进行计算,最后对N组回归系数取平均值。这个方法在大数据公司很常用,比如linkedin,google。
当数据量很大(上亿条数据、每条数据上万个特征),如何对线性回归进行并行计算?
1. 如果是用投影矩阵来求线性回归,那么这个问题就等同于如何对矩阵进行并行计算(网上这方面资料非常多)。
2.如果是用数值方法来求线性回归,可以考虑mini-batch,也就是abuu说的。
3. 如果考虑分布式计算(也就是把数据切成好N块),可以每个机器或者cpu分配到N分之一的数据,分别进行计算,最后对N组回归系数取平均值。这个方法在大数据公司很常用,比如linkedin,google。