statsmodels里的ols怎么处理分类变量?最好是能够像R里那样,直接处理的,不然的话就要像sklearn那样先one-hot了。多谢各位老铁!
1个回答
比如你有一个pandas的dataframe,叫做df,要预测列名是y,有两个特征,numerical特征x1和categorical特征x2,那么用下面的表达式就可以了,不需要做one-hot
import statsmodels.formula.api as smf
res = smf.ols(formula='y ~ x1 + C(x2)', data=df).fit()