K Means初始点是随机的,那么必须是样本中的点吗?还是根据数值的范围,用Uniform分布产生的随机点?
2个回答
最好用样本中的点。因为存在就合理,用没见过的值,会有风险。举个极端的例子。比如数据范围是[0,1],如果出现一个异常点是10000,那么初始值是uniform[0,10000]的随机数,会很难收敛。如果用样本中的点做初始值,只有很小概率会用这个异常点。
SofaSofa数据科学社区DS面试题库 DS面经K Means初始点是随机的,那么必须是样本中的点吗?还是根据数值的范围,用Uniform分布产生的随机点?
最好用样本中的点。因为存在就合理,用没见过的值,会有风险。举个极端的例子。比如数据范围是[0,1],如果出现一个异常点是10000,那么初始值是uniform[0,10000]的随机数,会很难收敛。如果用样本中的点做初始值,只有很小概率会用这个异常点。
SofaSofa数据科学社区DS面试题库 DS面经