MIT再推出有名数据集ImageNet存在系统性Bug,祸端还是WordNet
惨遭下架后,MIT再爆知名数据集ImageNet存在系统性Bug,祸端还是WordNet 麻省理工研究团队之所以在ICML大会上介绍这项研究,是因为近期陷入的“Tiny Images”争议事件。 就在本月初,麻省理工学院(MIT)宣布永久删除了包含8000万张图像的Tiny Images数据集,并公开表示歉意。其原因是,有关研究人员发表了一篇论文指控Tiny ImageNet数据集存在多项危险标签,包括种族歧视、性别歧视、色情内容等,而且指控有理有据。 论文中表明,ImageNet在语义结构分析上,使用的WordNet名词,它包含了种族歧视等危险内容,同时,由于图像过小,数据量过大,并未手动对图像标签进行逐一核对,由此导致了问题的出现。 众所周知,知名数据集ImageNet也使用了WordNet用于语义结构分析,那么,ImageNet数据集是否也存在同样的问题?对此,麻省理工研究团队给出了答案。 ImageNet基准测试与实际不符大规模ImageNet数据集的出现,可以说意味着机器学习深度变革的一个新起点。2009年,李飞飞领衔的研究团队在计算机视觉与识别模式大会(CVPR)上首次推出ImageNet,ImageNet数据集包含10000个分类,超过一百万个图像,数据量之大是此从未有过的。 正是因数据量大、质量高,ImageNet数据集被广泛用于预训练和基准测试。但是,麻省理工研究团队在最近的研究中却指出: ImageNet存在明显的“系统标注问题”,导致其用作基准数据集时与实际情况并不一致。 (编辑:好传媒网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |