揭开对机器学习的七点误解

首页 > 教程 > 机器学习 » 揭开对机器学习的七点误解

ramy 2019-04-09 17:35:37 机器学习 | 查看评论

误解4：神经网络训练过程会使用训练集中的所有数据点

人们常说，数据是新型财富，数据量越大，我们就能将数据相对不足的、过参数化的深度学习模型训练得越好。

在ICLR 2019 的一篇论文An Empirical Study of Example Forgetting During Deep Neural Network Learning 中，研究者们表示在多个常见的较小图像数据集中，存在显着冗余。令人震惊的是，在CIFAR-10 中，我们可以在不显着影响测试集准确率的情况下剔除30% 的数据点。

揭开对机器学习的七点误解

当神经网络在时刻t 给出准确分类，而在t+1 时刻发生误分类，此时称为发生遗忘事件。这里的时刻是指网络中SGD 的更新次数。为了追踪遗忘事件，研究者每次只在SGD 更新时的小批次数据中的样本上运行神经网络，而不是在数据集的每个样本上运行。对於在训练时不会发生遗忘事件的样本，称之为难忘性样本。

研究者发现，MNIST 中91.7%、permutedMNIST 中75.3%、CIFAR-10 中31.3% 以及CIFAR-100 中7.62% 的数据属於难忘性样本。这符合直观理解，因为随着图像数据集的多样性和复杂性上升，神经网络对数据的遗忘性越大。

揭开对机器学习的七点误解

相较於难忘性样本，可遗忘样本似乎表现了更多不寻常的独特特徵。研究者将其类比於SVM 中的支持向量，因为它们似乎划分了决策边界。

揭开对机器学习的七点误解

与此相反，难忘性样本则编码了绝大部分的冗余信息。如果将样本按难忘性进行排序，就可以通过删除绝大部分的难忘性样本，进而减小数据集。

在CIFAR-10 中，在不影响测试集准确率的情况下，30% 的数据是可以移除的，删除35% 的数据后准确率会下降0.2%。如果所移除的30% 的数据是随机挑选的，不是基於难忘性来选取，准确率将会显着下降1%。

揭开对机器学习的七点误解

与此类似，在CIFAR-100 上，8% 的数据可以在不影响测试集准确率的情况下移除。

这些发现表明，在神经网络的训练中，存在明显的数据冗余，就像SVM 的训练中，非支持向量的数据可以在不影响模型决策的情况下移除。

意义：如果在开始训练之前，就能确定哪些样本是不可遗忘的，那么我们就可以通过删除这些数据来节省存储空间和训练时间。

4/7 首页上一页 2 3 4 5 6 7 下一页尾页

除特别注明外，本站所有文章均为赢咖4注册原创，转载请注明出处来自揭开对机器学习的七点误解

留言与评论（共有 0 条评论）

繁

[lianlun]1[/lianlun]