【小哈划重点:该库于2008年创建,旨在有助于开发先进的对象检测技术。它实际上是一大堆照片,标签描述了照片中内容,这一切都可能馈入到神经网络中,教它们将照片中的图案与描述性标签相关联。】
IT外媒The Register报道学术界的担忧后,知名大学麻省理工学院(MIT)采取了行动。
MIT已撤下了被广泛引用的训练AI系统的数据集,原因是可能使用种族歧视、女性歧视及其他有问题的词语描述人。
这所美国知名大学接到The Register的提醒后已于本周删除了数据库。MIT督促研究人员和开发人员停止使用训练库,并删除任何副本。一位教授称:“我们深表歉意。”
该大学创建的训练集用于教机器学习模型自动识别并列出静态图像中描绘的人和物。比如说,如果您向某机器学习系统展示公园的照片,它可能告诉您照片中出现的儿童、成人、宠物、野餐饭菜、花草和树木等信息。不过,由于MIT在组合训练集时采用了傲慢的做法,这些系统还可能将女性标记为妓女或婊子,用贬损词描述黑人和亚裔人。该数据库还含有标有脏词的女性生殖器的特写图片。
因此,依赖使用MIT的数据集训练的神经网络的诸多应用程序、网站及其他产品可能最后在分析照片和摄像头拍摄的画面时使用这些词语。
这个有问题的训练库是80 Million Tiny Images(8000万个微型图像),该库于2008年创建,旨在有助于开发先进的对象检测技术。它实际上是一大堆照片,标签描述了照片中内容,这一切都可能馈入到神经网络中,教它们将照片中的图案与描述性标签相关联。因此向经过训练的神经网络显示一辆自行车时,它能准确地预测自行车是否在图片中。之所以名为Tiny Images,是因为库中图片足够小,以便2000年代末2010年代初的计算机视觉算法消化处理。
如今,Tiny Images数据集与名气更大的ImageNet训练集一起用于横向比较计算机视觉算法。不过与ImageNet不同,到目前为止,还没有人仔细检查过Tiny Images中存在问题的内容。
硅谷隐私初创公司UnifyID的首席科学家Vinay Prabhu和爱尔兰都柏林大学攻读博士学位的Abeba Birhane近日仔细研究了MIT数据库,发现成千上万个图像是用针对黑人和亚裔人的种族歧视词语和用于描述女性的贬损词标记的。他们在一篇论文(https://openreview.net/forum?id=s-e2zaAlG3I)中披露了发现结果,该论文接受了2021年计算机视觉应用研讨会的同行评审。
该图显示了MIT数据集中用所选择的问题词语标记的图片的数量。图片来源:Prabhu和Birhane
该数据集含有从Google Images收集而来的79300000余个图像,分成了75000多个类别。可从MIT计算机科学和人工智能实验室(CSAIL)的官网上搜索和细读内有220万个图像的简化版。The Register向数据集的创建者提醒Prabhu和Birhane的研究工作后,周一CSAIL官网删除了上述这个可视化图形和可下载的完整数据库。
关键问题在于,数据集含有比如用脏字标记的黑人和猴子的图片,用妓女标记的穿比基尼或怀抱孩子的女性,用粗鄙语标记的人体部位,等等——将普通图像与诋毁和令人反感的词语毫无必要地联系起来,并把成见和偏见添加到未来的AI模型中。
本周撤下前的220万个数据集可视化图形的屏幕快照。它显示了数据集中标以“妓女”的一些例子,出于法律和礼节上的原因,我们做了像素化处理。有的图像是抱着婴儿的女性的大头照,有的是色情女演员和穿着比基尼的女性的照片。
CSAIL的电气工程和计算机科学教授Antonio Torralba说,该实验室根本没意识到数据集中有这些令人反感的图像和标签。他告诉The Register:“很明显,我们应手动筛选。为此,我们深表歉意。的确,我们已撤下了数据集,以便可以删除有问题的图像和类别。”
不过CSAIL在官网上的声明中表示,由于图像太小,无法人工检查和手动过滤,因此数据集将永久下架。实验室还承认,它是自动从互联网上采集图像的,并没有核查该库中是否有任何令人反感的图片或词语,它敦促人们删除数据副本:
我们已引起注意:Tiny Images数据集含有一些贬损词,比如类别和令人反感的图像。这是自动化数据收集程序依赖来自WordNet的名词的结果。我们对此深表关切,并向可能受到影响的人表示歉意。 数据集太大了(8000万个图像),而图像太小(32 x 32像素),因而人很难视觉上识别内容。 因此,即使行得通,人工检查也无法保证可以完全删除令人反感的图像。因此,我们已决定正式撤下数据集。它已下架,不会放回到网上。我们要求社区将来不要使用它,并删除可能已下载的数据集的任何现有副本。
Torralba教授为我们介绍了该库是如何构建的:获得大量单词(包括贬损词)后,编写代码,在互联网上搜索使用这些单词的图像,然后把它们结合起来。结果是这个数据集含有原始的互联网资料。
Torralba教授提到普林斯顿大学含有分组成相关集的英语单词的数据库时说:“数据集含有直接从WordNet复制而来的53464个名词。然后,这些在当时被用于从互联网搜索引擎自动下载相应名词的图像,并使用当时可用的过滤器,收集了8000万个图像。”
WordNet于1980年代中期在普林斯顿大学认知科学实验室建立,由认知心理学创始人之一George Armitage Miller领导。Prabhu告诉我们:“Miller迷恋于单词之间的关系。该数据库实际上反映了单词之间彼此如何关联。”
比如说,猫和狗这两个词的关系比猫和伞这两个词的关系更紧密。遗憾的是,WordNet中的一些名词是种族歧视语和侮辱语。几十年后的今天,由于学术人员和开发人员使用该数据库作为一个方便的英语单词孤岛,那些词语困扰着现代机器学习。
Birhane告诉The Register:“构建庞大数据集时,您需要某种结构。这就是为何WordNet很有效。它让计算机视觉研究人员有办法对图像进行分类和标记。既然完全可以用WordNet,何必自己搞呢?”
WordNet本身不像单词列表那么有害,不过与图像和AI算法结合使用时,可能会带来令人不快的后果。Birhane说:“[WordNet]项目的目的就是描绘彼此接近的单词。但是当您开始将图像与那些单词相关联时,就是拿来真人的照片并将其与给人以刻板印象的侮辱词相关联。”
ImageNet也有同样的问题,因为它也用WordNet加以标注。名为ImageNet Roulette的实验允许人们将照片提交到用ImageNet训练的神经网络,该神经网络将使用来自数据集的标签描述图像。人们将最令自己着迷的照片:自拍照馈送给系统,这不足为奇。当软件使用种族歧视和冒犯性的标签描述照片时,一些人大为震惊。
在这些庞大数据集中,有问题的图像和标签所占的比例很小,很容易认为它们只是异常情况。不过Prabhu和Birhane认为,如果这些资料用于训练实际环境中所用的机器学习模型,可能会导致严重的伤害。
他们在论文中写道:“标准数据集缺乏严格的审查,给女性、少数种族以及社会边缘的弱势个人和社区造成了极大的负面影响。”
这些群体在AI训练数据集中常常没有得到充分的代表。这是为什么人脸识别算法难以识别女性和肤色较深的人。今年早些时候,底特律一名黑人男子被人脸识别软件误认为是可疑小偷后,被警察误抓。这也是为什么一种颇有争议的AI算法(通过低分辨率照片生成高分辨率图像)将前总统奥巴马的模糊照片变成了白种人而不是黑种人的照片。
Birhane说:“人们并不考虑这些模型会如何运用或用在什么地方。他们只是想‘哦,这是我能做的很酷的事情’。不过如果您更认真地思考一番,会开始发现这种种阴险的目的,并了解这些危害如何显现。”
ImageNet和80 Million Tiny Images之类的大型数据集还常在未经别人明确同意的情况下,从Flickr或Google Images采集照片收集而成。同时,Facebook聘请了同意将其自己的脸部用于数据集的演员,旨在教软件检测计算机生成的伪造图像。
Prabhu和Birhane表示,这个社交网络的做法是好主意,不过他们特别指出,学术研究不太可能有资金掏钱请演员在训练数据集中露脸。他们说:“我们承认,创建理想的数据集没有完美的解决办法,但这不意味着就不应该尝试创建更好的数据集。”
他们俩建议在专注于对象识别的数据集中模糊人脸,仔细筛选图像和标签以去除任何令人反感的内容,甚至使用真实的综合数据来训练系统。他们俩说:“您不需要含有种族诋毁语、色情图片或儿童图片。从事科研活动与遵守道德标准并不互相排斥。”
参考资料:https://www.theregister.com/2020/07/01/mit_dataset_removed/
(译文原标题:《MIT致歉,永久撤下教AI系统使用种族歧视和女性歧视等词语的庞大数据库!》)