概述
统计假设检验(hypothesis test)是对学习器的性能进行比较的依据,下面介绍两种最基本的假设检验,以及几种常见的机器学习性能比较方法。
两种基本假设检验
“假设”指对学习器的泛化错误率分布的某种判断或猜想,现实任务中,我们训练完成后获得的是测试错误率 $\hat{ε}$, 但泛化错误率与测试错误率未必相同,但差距较小,因此我们使用测试错误率来预估泛化错误率分布。


二项检验
其中,$ε_0$ 指的是某个假设的错误率定值,$α$ 指一定不会存在最大错误率的区间的概率,$1-α$ 即我们的假设的置信度。

双边t检验


交叉验证t检验


McNumar检验
