金钱买不来道德

2022 年 4 月 1 日

delphi.allenai.org/,用户可以输入情景描述,然后德尔菲--一个根据人类道德判断训练出来的人工神经网络--会对输入的情景做出评估。会出什么问题?

德尔菲意见多多。德尔菲说,花 15 美元给自己的孩子买圣诞礼物?花 15,000 美元买同样的礼物?花 150 亿美元?但 1500 万美元是可以的。条件较差的父母和孩子可能会觉得德尔菲的观点偏向富人。

德尔菲于去年 10 月由艾伦人工智能研究所发布,最初被称为 "道德机器"。网站公开后不久,德尔菲令人啼笑皆非的判断实例就开始在常见的社交媒体网站上流传。对于德尔菲网站的访问者来说,催促德尔菲做出不仅对富人有利,而且带有攻击性的种族主义、性别歧视或支持种族灭绝的言论似乎相对容易。没过几天,网站就增加了一个免责声明,不久之后又增加了一个三选框的条款和条件,用户必须点击通过后才能向德尔福提出任何问题。从 1.0 版到 1.0.4 版的转变过程中,Delphi 最可笑或最前后矛盾的一些判断消失了,但条款和条件现在明确指出,Delphi 仍会被提示发表攻击性言论,其输出结果仍然令人啼笑皆非。 

与去年的 GPT-3 类似,Delphi 是一种 "变压器 "型人工神经网络,能够模仿训练数据的中短期统计结构。GPT-3 是在从多个互联网资源中收集的庞大数据集上进行训练的,它能写出流畅的、貌似人类水平的散文段落,让人惊叹不已。它甚至能将一些提示转化为软件代码。与 GPT-3 相比,Delphi 的训练数据更为有限。通过亚马逊的 Mechanical Turk 平台,我们将从教科书、小说、痛苦的姨妈专栏以及类似资料中收集到的具有道德意义的情境描述提供给人类工作者(又称 MTurkers),让他们对这些情境进行评价。这些情境及其评价被用于训练德尔菲。

Delphi 实际上充满了 MTurkers 的观点,其中许多观点相互冲突。它对任何提示的反应都是对口头类似情况的意见进行统计后得出的综合结果。即使一个提示可能描述的是一个全新的情况,它也会产生一个即使不是完全智能化也能理解的反应。用户很快就找到了能让德尔菲做出愚蠢反应的单词组合。V1.0 版中最受欢迎的提示(V1.0.4 版中已消失):Delphi 声称用暴力捣碎土豆喂养孩子是不道德的。按理说,MTurkers 不喜欢暴力,但 Delphi 完全没有区分无害暴力和有害暴力的常识,更不会意识到用力捣碎土豆的治疗价值。

让 Delphi 对马铃薯施暴的愚蠢言论看似无伤大雅,但将 Delphi 作为一个严肃问题的严肃解决方案的开端向全世界发布,其后果可能要严重得多。在一篇博客文章中,研究人员承认犯了错误,并承认他们对互联网上的人们在试图揭露 Delphi 的局限性时所表现出的敌对态度感到惊讶。v1.0.4 的条款和条件也承认了这一点,并坚称德尔菲 "旨在研究在各种日常情况下模拟人们道德判断的承诺,更重要的是,其局限性"。但是,为什么这些局限性在德尔菲问世之前并不明显呢?任何人只要对微软 Tay 的故事半知半解,就应该意识到某些版本的历史将会重演,Tay 因其种族主义和性别歧视的推文而不得不在 24 小时内从互联网上撤下。Delphi 没有 Tay 那么糟糕,因为它没有实时学习用户的互动,但它已经糟糕到强迫用户同意条款和条件的法律要求。尽管有免责声明,但普通用户、对抗意识较弱的用户可能无法自己发现 Delphi 的缺陷,而更倾向于将某种道德权威归于夸张命名的道德神谕。

这些问题比缺乏后见之明和先见之明更为深刻。德尔菲展示了一种学科自大和缺乏基本学术研究的现象,这种现象困扰着计算机科学家在不断扩大的 "人工智能伦理 "领域所做的太多(但不是全部)工作。在作为预印本(即未经同行评审)与网站同时发布的研究论文中,德尔菲的作者认为伦理理论的应用是 "武断和简单化的"。他们反对 "自上而下 "的方法,而倾向于 "自下而上 "的方法,即直接从人类的判断中学习伦理。但他们没有提到,这些术语源于二十年来关于机器道德的自上而下和自下而上方法的学术研究,而且他们也没有意识到,为什么单靠这两种方法都不够。如果能将道德问题理解为不仅仅是一个技术问题,而是一个可以通过更多更好的机器学习来解决的问题,或许就能避免这些错误的发生。

这不仅仅是 Delphi 的问题。我们更关注的是,太多的计算机科学家陷入了一种思维定势,认为解决糟糕技术的办法就是更多的技术,只有他们自己才有足够的智慧来解决他们自己创造的问题。他们急于推出下一个新产品,却对自己领域之外的专业知识不屑一顾。将更多的资金投入到规模越来越大的程序和运行这些程序所需的机器上,并不能解决如何建立能让人们蓬勃发展的社会技术空间这一复杂问题。

科林-艾伦是匹兹堡大学科学史与科学哲学杰出教授,布雷特-卡兰是该校的博士后研究员。他们共同致力于由邓普顿世界慈善基金会资助的 "机器智慧项目"。艾伦与艾伦研究所没有任何关系。他与温德尔-沃拉奇合著了《 道德机器,教机器人明辨是非》(Moral Machines, Teaching Robots Right from Wrong)一书, 牛津大学出版社 2009 年出版。

艾伦的主要研究领域涉及认知科学和神经科学的哲学基础。他对非人类动物和计算机认知的科学研究尤为感兴趣,并在心灵哲学、生物哲学和人工智能方面发表了大量论文。他还在人文计算领域开展了多个项目。他是匹兹堡大学数字研究与方法项目和 CMU/PItt认知神经基础中心的教员。

布雷特-卡兰于2020年6月获得普林斯顿大学博士学位。他从事认识论和伦理学研究,尤其关注认知科学的规范和理论问题。在匹兹堡大学工作期间,他正在从事 "实用智慧与机器智能 "项目,该项目得到了邓普顿世界慈善基金会对科林-艾伦的资助。

您可能还喜欢

2024 年 7 月 31 日 - 播客

负责任的人工智能与大型模型的伦理权衡,与 Sara Hooker 合著

在本期节目中,高级研究员安雅-卡斯珀森(Anja Kaspersen)与 Cohere for AI 的萨拉-胡克(Sara Hooker)讨论了模型设计、模型偏差和数据表示等问题。

2024 年 7 月 24 日 - 播客

人工智能与战争:军备控制与威慑的新时代》,与保罗-沙尔合著

高级研究员安雅-卡斯珀森(Anja Kaspersen)与新美国安全中心(Center for a New American Security)的保罗-沙雷(Paul Scharre)就技术与战争交叉领域的新问题进行了对话。

2024年7月2 日• 播客

控制论、数字监控和工会在技术治理中的作用,与Elisabet Haugsbø合著

高级研究员 Anja Kaspersen 与技术联盟 Tekna 主席 Elisabet Haugsbø 就她的工程之旅、AI 时代的弹性等进行了交谈。