揭开对机器学习的七点误解-赢咖4注册

ramy 2019-04-09 17:35:37 机器学习 | 查看评论

误解2：图像数据集反映了自然世界真实图像分布

人们大概会认为，如今的神经网络在目标识别任务上，水平已经超过真人。其实并不尽然。也许在ImageNet 等筛选出来的图像数据集上，它们的效果的确比人工优秀；但对於自然界的真实图像，它们在目标识别上绝对无法比过任何一个正常的成年人。这是因为，从目前的图像数据集中抽取的图像，和从真实世界整体中抽取的图像的分布不同。

在一篇2011 年旧论文Unbiased Look at Dataset Bias 里，研究者根据12 个流行的图像数据集，尝试通过训练一个分类器用以判断一个给定图像来自於哪个数据集，来探索是否存在数据集偏差。

揭开对机器学习的七点误解

随机猜测的正确率应该是1/12 = 8%，而实验结果的准确率高於75%。

揭开对机器学习的七点误解

研究者在HOG 特徵上训练了一个SVM，并发现其正确率达到39%，高於随机猜测水平。如今，如果使用最先进的CNN 来复现这一实验，分类器的表现可能更好。

如果图像数据集确实能够代表来自自然世界的真实图像，就不应能够分辨出某个特定图像是来自於哪个数据集的。

揭开对机器学习的七点误解

但数据中的偏差，使得每个数据集都与众不同。例如，在ImageNet 中，有非常多的「赛车」，不能认为这代表了通常意义上「汽车」的典型概念。

揭开对机器学习的七点误解

研究者在某数据集训练分类器，并在其他数据集上评估表现效果，进一步度量数据集的价值。根据这个指标，LabelMe 和ImageNet 是偏差最小的数据集，在「一篮子货币（basket of currencies）」上得分0.58。所有数据集的得分都小於1，表明在其他数据集上训练的模型都给出了更低的准确度。在没有数据集偏差的理想情况下，应该有一些得分是高於1 的。

作者做了悲观的总结：

那么，如果我们把现在用来训练算法的数据集部署在现实世界里，它有什么价值呢？总结下浮现出的答案会是：「比没有好，但没好太多。」

2/7 首页上一页 1 2 3 4 5 6 下一页尾页

误解2：图像数据集反映了自然世界真实图像分布

关于本站

加入我们

网站合作

标签（推荐）