ramy  2019-04-09 17:35:37  机器学习 |   查看评论   

误解4:神经网络训练过程会使用训练集中的所有数据点


人们常说,数据是新型财富,数据量越大,我们就能将数据相对不足的、过参数化的深度学习模型训练得越好。

 

在ICLR 2019 的一篇论文An Empirical Study of Example Forgetting During Deep Neural Network Learning 中,研究者们表示在多个常见的较小图像数据集中,存在显着冗余。令人震惊的是,在CIFAR-10 中,我们可以在不显着影响测试集准确率的情况下剔除30% 的数据点。

揭开对机器学习的七点误解

当神经网络在时刻t 给出准确分类,而在t+1 时刻发生误分类,此时称为发生遗忘事件。这里的时刻是指网络中SGD 的更新次数。为了追踪遗忘事件,研究者每次只在SGD 更新时的小批次数据中的样本上运行神经网络,而不是在数据集的每个样本上运行。对於在训练时不会发生遗忘事件的样本,称之为难忘性样本。

 

研究者发现,MNIST 中91.7%、permutedMNIST 中75.3%、CIFAR-10 中31.3% 以及CIFAR-100 中7.62% 的数据属於难忘性样本。这符合直观理解,因为随着图像数据集的多样性和复杂性上升,神经网络对数据的遗忘性越大。

揭开对机器学习的七点误解

相较於难忘性样本,可遗忘样本似乎表现了更多不寻常的独特特徵。研究者将其类比於SVM 中的支持向量,因为它们似乎划分了决策边界。

揭开对机器学习的七点误解

与此相反,难忘性样本则编码了绝大部分的冗余信息。如果将样本按难忘性进行排序,就可以通过删除绝大部分的难忘性样本,进而减小数据集。

 

在CIFAR-10 中,在不影响测试集准确率的情况下,30% 的数据是可以移除的,删除35% 的数据后准确率会下降0.2%。如果所移除的30% 的数据是随机挑选的,不是基於难忘性来选取,准确率将会显着下降1%。

揭开对机器学习的七点误解

与此类似,在CIFAR-100 上,8% 的数据可以在不影响测试集准确率的情况下移除。

 

这些发现表明,在神经网络的训练中,存在明显的数据冗余,就像SVM 的训练中,非支持向量的数据可以在不影响模型决策的情况下移除。

 

意义:如果在开始训练之前,就能确定哪些样本是不可遗忘的,那么我们就可以通过删除这些数据来节省存储空间和训练时间。

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自揭开对机器学习的七点误解

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]