点击率的准确性应该和样本大小有关系,比如A页面100个曝光,有20个点击,点击率是20%,B页面10000个曝光,有2000个点击,点击率也是20%。但是我觉得页面B的点击率是更靠谱的。
那怎么引入置信区间的概念呢?点击率的95%置信区间应该怎么算呢?
1个回答
均值的95%置信区间的公式是
$$\left(\hat{p}-1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}},\hat{p}+1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\right)$$
$\hat{p}$是点击率估计值,也就是点击次数除以展示次数;$n$是展示次数;1.96是95%在正态分布中对应的z-score;1.96后面的根号项是均值的标准差。
还有一种是叫做威尔逊校正,是对上面置信区间在小样本场景下的优化
$$\left(\frac{\hat{p}+\frac{1.96^2}{2n}}{1+\frac{1.96^2}{n}}-\frac{1.96}{1+\frac{1.96^2}{n}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}+\frac{1.96^2}{4n^2}},\frac{\hat{p}+\frac{1.96^2}{2n}}{1+\frac{1.96^2}{n}}+\frac{1.96}{1+\frac{1.96^2}{n}}\sqrt{\frac{\hat{p}(1-\hat{p})}{n}+\frac{1.96^2}{4n^2}}\right)$$
另外比较无脑的做法,是可以通过bootstrap直接估算置信区间,这个做法就不需要任何公式了。