1. 3个IID feature,然后第4个和第三个一样,那么第一个dimension的variance占多少
2.有人偷到你的feature value和predicted outcome(0或1),能reverse engineer你的logistic regression model吗?
3. 10000个random binary feature,然后其中两个XOR决定label,你用random forest的accuracy是多少?
4. 10%的positive case proportion降为5%,你原来的80%的precision会变成多少?
2个回答
1. 3个IID feature,然后第4个和第三个一样,那么第一个dimension的variance占多少
不太明白,所以是有4个feature吗?
2.有人偷到你的feature value和predicted outcome(0或1),能reverse engineer你的logistic regression model吗?
应该不能。如果知道predicted probability应该就可以了。
3. 10000个random binary feature,然后其中两个XOR决定label,你用random forest的accuracy是多少?
准确度是100%?
4. 10%的positive case proportion降为5%,你原来的80%的precision会变成多少?
如果其他情况都不变的话,应该还是80%吧。不过条件太少了,真实情况未必80%。
SofaSofa数据科学社区DS面试题库 DS面经