Author 作者 凯特.克劳馥(Kate Crawford)InternetImageNet网际网路人工智慧学术科技数据资料探勘技术机器学习法石油资本主义资讯匿名资料集从Internet到ImageNet网际网路在许多方面改变了一切;在人工智慧研究领域,网际网路被视为某种类似自然资源的东西,供人取用。随着越来越多人开始把他们的图像上传到网站、照片分享服务,最後传到社群媒体平台,掠夺行为也更频繁发生。突然间,训练集的大小可以达到一九八○年代科学家永远无法想像的规模。拍摄照片时要运用多种打光条件、控制参数和定位脸部的装置,都成了过往云烟。现在有数不尽的自拍,光线条件、位置和景深五花八门。人们开始分享他们的婴儿照、家庭快照,以及十年前模样的照片,悉数成了追踪遗传相似度和脸部老化的理想资源。每天都有数兆行文本发布,正式和非正式的言语形式都有。这一切都有利於机器学习,而且数量庞大。举例来说,二○一九年,平均每天有大约三亿五千万张照片上传到脸书,还有五亿条推文发送。脸书和推特只不过是位於美国的两个平台,而线上的任何东西和所有一切都准备好成为人工智慧的训练集。
科技业巨擘这时处於力量强大的位置:他们的生产线上有更新不完的图像和文字,而有越多人分享内容,科技业的力量就越大。大家乐於免费标记照片的人物姓名和地点,而这种无偿劳动为机器视觉和语言模型带来更准确的标记资料。在业界,这些收集来的资料非常有价值,是鲜少与他人分享的专有宝库,原因在於隐私问题及它们所代表的竞争优势。但在业界之外也有人想要相同的优势,例如学术界顶尖的计算机科学实验室。他们怎麽负担得起收集人们的资料,并由自愿的人类参与者手动标记这些资料呢?这时,新想法开始出现:将从网际网路上提取的图像和文字,与低薪的群众外包工作者劳力结合起来。
ImageNet就是最重要的人工智慧训练集之一。它的概念在二○○六年首度出现,当时李飞飞教授决定建立一个庞大的物件辨识资料集。「我们决定要做破天荒的事,」李飞飞说:「我们将绘制出整个世界的物件。」二○○九年一场电脑视觉会议上,ImageNet团队发表了这项突破性研究的海报。它的开头是这样写的:
数位时代带来了数据大爆炸。最新的估计显示,Flickr上有超过三十亿张照片,YouTube的视频片段数量相去无几,而Google Image Search资料库中的图像甚至更多。利用这些图像,可以开发出更成熟稳健的模型和演算法,为使用者提供更好的应用程式,让他们索引、检索、组织这些资料,并与之互动。
从一开始,资料就具有庞大、杂乱无章、非个人、随时可被利用的特性。根据这些作者的说法,「究竟如何利用和组织这些资料,是有待解决的难题」。该团队主要透过搜寻引擎的找图选项,从网路上提取数百万张图像,生成一个「大规模的图像本体」,用以作为资源,为物件辨识和图像辨识演算法「提供关键的训练和基准资料」。ImageNet就是透过这种方式大幅成长。团队从网际网路上大量收集了超过一千四百万张图像,可组成超过两万个类别。团队的各项研究报告只字未提取用他人资料的伦理问题,即使有大量图像是非常私人的,具有不宜泄漏的性质。
一旦这些图像从网路上被抓取来之後,就出现了一项重要的问题:谁会标记所有这些图像,并归入可理解的类别?正如李飞飞所描述的,团队最初的计画是以时薪十美元雇用大学生,手动寻找图像,加入资料集。但她明白,以他们的预算来看,需要九十多年才能完成计画。不过,解决之道出现了。有个学生告诉李飞飞一项新服务—「亚马逊土耳其机器人」。正如我们在第二章所见,这个分散式平台意味着突然间就可能取得分散式劳动力来从事线上任务,例如标记和分类图像,且规模庞大、成本低廉。「他让我看这个网站。跟你打包票,那天我就知道ImageNet计画做得成。」李飞飞说:「突然间,我们找到一种可扩大规模的工具。光靠雇用普林斯顿的大学生,根本不敢梦想能做得到。」不令人意外,大学生没拿到这份工作。
相反地,ImageNet一度成为「亚马逊土耳其机器人」全球最大的学术界用户,这项计画配置了一批零工,平均每分钟把五十张图像分类到数千个类别。有苹果和飞机的类别,也有水肺潜水者和相扑选手的类别。不过,也有残忍、冒犯、种族主义的标记:人们的照片被分为「酒鬼」、「猿人」、「疯子」、「妓女」和「吊眼仔」等类别。所有这些词汇皆是从WordNet的语料库导入的,提供给群众外包者进行图像配对。十年间,ImageNet成长为机器学习的物件辨识巨擘,也是这个领域强而有力的重要基准。未经同意并由低薪群众外包者标记大量的提取资料将成为标准作法,数以百计的新训练资料集会效法ImageNet。我们会在下一章看到,这些作法及其所生成的标记资料,最终会和这项计画形影不离。资料的迷思与隐喻人工智慧教授尼尔斯.尼尔森(Nils Nilsson)撰写的人工智慧史经常被引用,其中概述了几则机器学习中关於资料的基本迷思。他简洁说明技术学门对资料的典型描述:「大量的原始资料需要有效率的『资料探勘』技术,才能分类、量化和提取有用的资讯。机器学习法在资料分析中扮演越渐重要的角色,因为它们可以处理大量资料。事实上,资料越多越好。」
呼应几十年前默瑟的想法,尼尔森意识到资料随处可取,更适合用机器学习演算法来大量分类。这种普遍的信念成为公理:资料是让人取得、精炼并创造价值。
但长期下来,既得利益者精心制造这项信念,并予以支持。正如社会学家富凯德(Marion Fourcade)和希利(Kieran Healy)所写的,要不断收集资料的强制令不仅来自资料相关行业,也来自他们的体制和其部署的科技:
来自科技的体制命令是最强而有力的:我们做这些事情是因为我们可以……专业人士的建议、制度环境的要求和科技能力,让组织能拿走尽可能多的个人资料,即使收集量可能远超过公司想像所及或分析理解也无妨。其假设是,它迟早会有用,也就是有价值的。……当代组织不仅在文化上受到资料必要性的驱动,也配备新工具来强力执行。
这产生了一种收集资料的道德命令(moral imperative),收集资料是为了让系统更完好,无论资料收集在未来的某个时间点可能造成的负面影响为何。在「越多越好」这种令人质疑的信念背後,是认为一旦收集到足够多的不同资料片段,就能完全了解个人。不过,究竟什麽才算资料?历史学家吉特尔曼(Lisa Gitelman)指出,每一种学科和机构「都有自己的规范和标准来想像资料」。在二十一世纪,资料成为任何能撷取的东西。
诸如「资料探勘」的术语,或者「资料是新石油」的措词都属於修辞行动,把资料的概念从私人、私密或隶属於个人所有和控制之物,转变成更惰性、更不属於人的事物。资料开始被描述为要消耗的资源、要控制的流程,或是要利用的投资。「资料即石油」的表述方式变得司空见惯,尽管它让人联想到资料作为供采掘的原料,却鲜少强调石油和采矿业的成本:契约劳工、地缘政治冲突、资源枯竭,以及延伸超越人类时间尺度的後果。
最後,「资料」成为苍白的文字,隐藏了实体的起源和其目的。而如果把资料视为抽象、非物质的,更容易脱离传统上对需小心处理、同意或风险的理解和责任。正如研究者史塔克(Luke Stark)和霍芙曼(Anna Lauren Hoffman)指出的,把资料比喻成只等待发现的「自然资源」,是殖民强权几个世纪以来根深柢固的修辞技巧。只要是来自原始「未精炼」的来源,采掘就是合理之举。如果把资料表述为石油,只是等待被采掘,那麽机器学习就会渐渐变成其必要的精炼过程。
资料也开始被视为资本,符合新自由派对於市场更广大的想像,成为组织价值的主要形式。一旦透过数位足迹来表达人类活动,然後在评分指标中统计和排名,它们就能作为提取价值的方式。正如富凯德和希利所指出的,那些有正确资料讯号的人能取得优势,例如保险金较低、市场地位较高。主流经济中的高成就者通常在资料评分经济中也表现出色,而最低分的则成为最有害的资料监控和提取形式的目标。若把资料视为一种资本形式,那麽收集更多资料,一切都被视为合理的。社会学家萨多斯基(Jathan Sadowski)提出类似主张,认为如今资料是一种资本的形式。他指出,一旦一切以资料来理解,就合理化了一种循环,在这循环中,不断增加对资料的提取:「因此,驱动资料收集的,是资本累积持续不断的循环,这反过来又驱动资本,打造出一切皆由资料构成的世界,并仰赖这个世界。资料应是普世共通的这项观念重新定义一切,把所有东西纳入资料资本主义的范畴。所有空间都必须资料化。如果把宇宙想成可能蕴藏着无限的资料,那麽这意味着资料的累积和循环可以永远持续下去。」
驱动累积和循环,就是蕴藏在资料底下的强大意识形态。提取大量的资料是「〔资料〕累积的新边境,也是资本主义的下一步」,萨多斯基指出,而这是让人工智慧发挥作用的基础层。因此,整体产业、机构和个人不希望这个边境—资料是在那里供人取用的—受到质疑或者不稳定。
机器学习模型需要资料的持续流动,才能更准确。但机器像是渐近线,永远不会达到完全精确,这合理化了从尽可能多的人身上提取更多资料,让人工智慧的精炼厂有燃料可用。这导致从「人类主体」—二十世纪的伦理争论中出现的概念—之类的观念,转向「资料主体」的创造;而所谓的资料主体就是数据点的凝集,没有主体性、脉络或明确定义的权利。不必再取得同意二十一世纪最初几年,资料收集已不再注重是否得到同意。除了不再需要编导式照片,负责收集资料集的人也假定自己有取用网际网路的同意权,不需要同意书、签订协议和伦理审查。这下子,开始出现更多有问题的作法。举例来说,在科罗拉多大学科罗拉多泉分校(Colorado Springs),一名教授在校园的主要步道装设一台摄影机,悄悄拍摄一千七百多名师生的照片,全是为了训练他自己的脸部辨识系统。杜克大学有一项类似的计画,收集了两千多名学生的画面,这项成果後来在网际网路上发表,而学生在课堂间行走时根本不知道这件事。这个资料集称为DukeMTMC(意指多目标﹝multitarget﹞、多镜头﹝multicamera﹞脸部辨识),由美国陆军研究办公室和国家科学基金会赞助。
DukeMTMC计画遭到严厉抨击,因为艺术家暨研究者亚当.哈维(Adam Harvey)和拉普莱斯(Jules LaPlace)进行调查发现,中国政府正在使用这些图像来训练系统,监视少数民族。这促使杜克大学研究伦理审查委员会展开调查,该委员会判定此举「明显偏离」可接受的作法。该资料集已从网路上移除。
但科罗拉多大学和杜克大学的事件绝非偶发案例。在史丹佛大学,研究者调用旧金山一间受欢迎咖啡馆的网路摄影机,提取近一万两千张图像。这些「闹区繁忙咖啡馆的日常生活」图像未经任何人同意就提取。这些提取的资料一再在没有人允许或同意的情况下,上传给机器学习的研究人员,当成自动成像系统的基础设施。
另一个例子是微软训练集的里程碑—MS-Celeb,它在二○一六年从网路上抓取约一千万张照片,涵盖十万个名人。在当时,MS-Celeb是世界上最大的公共脸部辨识资料集,不仅包含知名演员和政治人物,还有记者、社运人士、政策制定者、学者和艺术家。讽刺的是,几个未经同意就被纳入资料集里的人,正是致力批评监视和脸部辨识的大将,包括纪录片制作人柏翠丝(Laura Poitras)、数位权利倡议者吉莉安.约克(Jillian York)、评论家莫罗佐夫(Evgeny Morozov),以及《监视资本主义时代》(The Age of Surveillance Capitalism)作者祖博夫(Shoshana Zuboff)。
即使资料集抹去个人资讯,释出时高度谨慎,但人已经被再度识别,或高度敏感的资讯细节仍遭披露。举例来说,二○一三年,纽约市计程车暨礼车管理局(Taxi and Limousine Commission)释出资料集,里头有一亿七千三百万笔个人搭乘计程车的资料,包括上下车时间、地点、车资和小费。计程车驾驶的牌照号码已经匿名化,但很快又被恢复原样,让研究者能推论敏感资讯,例如年收入和住家地址。一旦与来自名人部落格之类的公共资讯结合後,就能识别出一些演员和政治人物,还可能推论出曾造访脱衣舞夜总会的人居住地址。但除了对个人造成伤害之外,这样的资料集还会对整个群体或社区产生「可预测的隐私伤害」。比如从同样的纽约市计程车资料集中,可藉由观察哪些计程车司机会在祈祷时间停车,推测这些司机是虔诚的穆斯林。
从任何看似无害的匿名资料集中,都可能出现许多意料之外且高度私人的资讯形式,但事实上,这并未阻碍图像和文字的收集。机器学习的成功靠的是越来越大的资料集,因此越来越多人寻求取得资料集。但为什麽更广大的人工智慧领域接受这种作法,即使会带来伦理、政治和知识论方面的问题,且有潜在伤害?哪些信念、将事情合理化的理由和经济诱因,把这种大量提取资料、将资料一视同仁变成常态?
书 名|《人工智慧最後的秘密:权力、政治、人类的代价,科技产业和国家机器如何联手打造AI神话?》
作 者|凯特.克劳馥(Kate Crawford)
译 者|吕奕欣
出版社|脸谱出版社
出版日期| 2022 年05 月05 日
幽灵代价,我们为AI付出了什麽?
• 人工智慧既非人工的,也不是智慧的,那些看似万能的智慧是如何「制造」出来的?
• 从内华达沙漠到内蒙古巨大的人工湖、从亚马逊仓库到太空殖民,直击人工智慧帝国全景地图!
• 人工智慧充满隐藏成本,从自然资源和劳力到隐私和自由都是代价,深入了解我们为人工智慧付出了什麽?
• 人类为人工智慧制定的伦理架构非常失败,程式码和演算法并非致命毒药,那麽到底哪里出了错?
从神话到魔化,从地球、云端到太空,破解AI背後的6个秘密,探索人工智慧的另一种可能!当代AI研究先驱、微软研究院资深首席研究员第一手揭露人工智慧丰功伟业背後的阴暗面!