揭开对机器学习的七点误解-赢咖4注册

ramy 2019-04-09 17:35:37 机器学习 | 查看评论

误解3：机器学习研究者并不使用测试集进行验证

在机器学习的第一门课中，我们会学习到将数据集分为训练集、验证集以及测试集。将在训练集上训练得到模型，在验证集上进行效果评估，用以指导开发者调节模型，以求在真实场景下获得效果最好的模型。直到模型调节好之后，才应该使用测试集，提供模型在真实场景下实际表现的无偏估计。如果开发者「作弊」地在训练或验证阶段使用了测试集，那么模型就很可能遇到对数据集偏差产生过拟合的风险：这类偏差信息是无法在数据集外泛化得到的。

机器学习研究竞争激烈，对新算法/模型的评估，通常都会使用其在测试集上的表现。因此对於研究者而言，没有理由去写/提交一篇测试集效果不SOTA 的论文。这也说明在机器学习研究领域，总体而言，使用测试集进行验证是一个普遍现象。

这种「作弊」行为的影响是什么？

揭开对机器学习的七点误解

在论文DoCIFAR-10Classifiers Generalize to CIFAR-10? 中，研究者们通过在CIFAR-10 上建立了一个新的测试集，来研究此问题。为此，他们解析标注了来自Tiny Images 库的图像，在最初的数据采集过程也是如此。

研究者们之所以选择CIFAR-10，是因为它是机器学习界使用最广泛的数据集之一，也是NeurIPS 2017 中第二受欢迎的数据集（在MNIST 之后）。CIFAR-10 数据集的创建过程也有完善公开的文档记录。而庞大的Tiny Images 库中，也有足够的细粒度标签数据，进而使得在尽量不引起分布偏移的情况下重建一个测试集成为可能。

揭开对机器学习的七点误解