经常看到诸如“非参”模型、算法、统计之类的。
那么非参模型是什么意思?有哪些模型算是非参的?
问题比较大,谢谢各位解答!
2个回答
如果一个机器学习模型只由数量有限的参数来决定,那么这个模型就是参数(parametric)模型。这里“数量有限”是指个数少,不随着样本数量而变化,在知道数据量之前,就已经知道了有多少个参数需要被估计。
参数模型一般结构比较简单,只需要估计少量的参数。这通常是因为在对参数进行估计前,参数模型就已经对概率分布有了很强的假设。
比如线性回归就假设了线性关系和残差的正态性。
比如高斯混合模型就假设了每簇聚类都是一个高斯分布。
比如逻辑回归等等。
如果一个机器学习模型无法由数量有限的参数来决定,那么这个模型就是非参数(non-parametric)模型。这里“数量有限”是指个数少,不随着样本数量而变化。
比如k最近邻模型,就是非参的,模型的参数是由每个数据点决定的。
比如k Means,也是非参的,模型的参数是由每个数据点决定的。
比如决策树、随机森林、SVM等等。
简单来说就是不对样本的总体分布做假设,直接分析样本的一类统计分析方法。通常对样本进行统计分析的时候,首先要假设他们来自某个分布,然后用样本中的数据去estimate这个分布对应的参数,之后再做一些test之类。比如你假设某个样本来自同一个正态分布,然后用样本数据估算和,再用估算出来的这两个值做test。non-pararmetric则不然,不对总体分布做假设,自然也就不必estimate相应的参数。一个比较简单的例子是Sign test,可以用来检验两个分布X和Y的中位数是否相等。在这里不必介意X和Y分别是什么分布,只在意样本中每对x, y的相对大小。如果中位数相等(),那么 P(X>Y) = 0.5,所以去除刚好相等的情况之后,x > y 的样本数量应该是符合二项分布的。像这样就可以在在不对X和Y的分布做任何假设的情况下检验X和Y的中位数是否相等。
作者:Glenn Qian
链接:https://www.zhihu.com/question/22855599/answer/23556224
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
SofaSofa数据科学社区DS面试题库 DS面经