ramy  2019-04-09 17:35:37  机器学习 |   查看评论   

误解2:图像数据集反映了自然世界真实图像分布


人们大概会认为,如今的神经网络在目标识别任务上,水平已经超过真人。其实并不尽然。也许在ImageNet 等筛选出来的图像数据集上,它们的效果的确比人工优秀;但对於自然界的真实图像,它们在目标识别上绝对无法比过任何一个正常的成年人。这是因为,从目前的图像数据集中抽取的图像,和从真实世界整体中抽取的图像的分布不同。

 

在一篇2011 年旧论文Unbiased Look at Dataset Bias 里,研究者根据12 个流行的图像数据集,尝试通过训练一个分类器用以判断一个给定图像来自於哪个数据集,来探索是否存在数据集偏差。

揭开对机器学习的七点误解

随机猜测的正确率应该是1/12 = 8%,而实验结果的准确率高於75%。

揭开对机器学习的七点误解

研究者在HOG 特徵上训练了一个SVM,并发现其正确率达到39%,高於随机猜测水平。如今,如果使用最先进的CNN 来复现这一实验,分类器的表现可能更好。

 

如果图像数据集确实能够代表来自自然世界的真实图像,就不应能够分辨出某个特定图像是来自於哪个数据集的。

揭开对机器学习的七点误解

但数据中的偏差,使得每个数据集都与众不同。例如,在ImageNet 中,有非常多的「赛车」,不能认为这代表了通常意义上「汽车」的典型概念。

揭开对机器学习的七点误解

研究者在某数据集训练分类器,并在其他数据集上评估表现效果,进一步度量数据集的价值。根据这个指标,LabelMe 和ImageNet 是偏差最小的数据集,在「一篮子货币(basket of currencies)」上得分0.58。所有数据集的得分都小於1,表明在其他数据集上训练的模型都给出了更低的准确度。在没有数据集偏差的理想情况下,应该有一些得分是高於1 的。

 

作者做了悲观的总结:

 

那么,如果我们把现在用来训练算法的数据集部署在现实世界里,它有什么价值呢?总结下浮现出的答案会是:「比没有好,但没好太多。」

 

除特别注明外,本站所有文章均为 赢咖4注册 原创,转载请注明出处来自揭开对机器学习的七点误解

留言与评论(共有 0 条评论)
   
验证码:
[lianlun]1[/lianlun]