ramy  2019-04-09 17:35:37  机器学习 |   查看评论   

误解3:机器学习研究者并不使用测试集进行验证


在机器学习的第一门课中,我们会学习到将数据集分为训练集、验证集以及测试集。将在训练集上训练得到模型,在验证集上进行效果评估,用以指导开发者调节模型,以求在真实场景下获得效果最好的模型。直到模型调节好之后,才应该使用测试集,提供模型在真实场景下实际表现的无偏估计。如果开发者「作弊」地在训练或验证阶段使用了测试集,那么模型就很可能遇到对数据集偏差产生过拟合的风险:这类偏差信息是无法在数据集外泛化得到的。

 

机器学习研究竞争激烈,对新算法/模型的评估,通常都会使用其在测试集上的表现。因此对於研究者而言,没有理由去写/提交一篇测试集效果不SOTA 的论文。这也说明在机器学习研究领域,总体而言,使用测试集进行验证是一个普遍现象。

 

这种「作弊」行为的影响是什么?

揭开对机器学习的七点误解

在论文DoCIFAR-10Classifiers Generalize to CIFAR-10? 中,研究者们通过在CIFAR-10 上建立了一个新的测试集,来研究此问题。为此,他们解析标注了来自Tiny Images 库的图像,在最初的数据采集过程也是如此。

 

研究者们之所以选择CIFAR-10,是因为它是机器学习界使用最广泛的数据集之一,也是NeurIPS 2017 中第二受欢迎的数据集(在MNIST 之后)。CIFAR-10 数据集的创建过程也有完善公开的文档记录。而庞大的Tiny Images 库中,也有足够的细粒度标签数据,进而使得在尽量不引起分布偏移的情况下重建一个测试集成为可能。

揭开对机器学习的七点误解

研究者发现,很多神经网络模型在从原来的测试集切换到新测试集的时候,都出现了明显的准确率下降(4% - 15%)。但各模型的相对排名依然相对稳定。

揭开对机器学习的七点误解

总的来说,相较於表现较差的模型,表现较好模型的准确率下降程度也相对更小。这是一个振奋人心的消息,因为至少在CIFAR-10 上,随着研究社群发明出更好的机器学习模型/方法,由於「作弊」得到的泛化损失,也变得更加轻微。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自揭开对机器学习的七点误解

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]