2024 年 7 月 30 日 - 文章

为了效率而冒险升级:冲突中人工智能决策的伦理影响

在追求技术优势的过程中,军事战略家们正在研究用于决策的人工智能系统(如语言模型),因为它们在各种任务中成功超越了人类的能力。然而,随着语言模型融入军事规划的测试,我们面临着一个严重的风险:人工智能有可能无意中使冲突升级。虽然在效率和范围方面大有可为,但部署这些模型会引发紧迫的道德和安全问题。我们必须仔细审查在一个失误就可能造成严重全球影响的情况下依赖人工智能的影响。

人工智能决策的潜力

人工智能(AI)已成为跨领域的变革力量,人工智能系统在许多任务中都达到甚至超过了人类的能力。著名的例子包括 DeepMind 的AlphaGo在围棋比赛中击败世界冠军,Meta 的Cicero AI在战略棋盘游戏 "外交 "中击败专家,以及 OpenAI 的ChatGPT等生成语言模型创造出类似人类的文本并通过高中考试。

阿尔法围棋(AlphaGo)等狭义任务系统展示了人工智能在战略游戏中的成功,引发了军事战略家的兴趣。然而,语言模型因其卓越的多功能性而具有更大的潜力。与狭义任务系统不同,语言模型可以利用大量跨领域信息,适用于任何以自然语言表述的任务。这种适应性使其对需要快速处理和综合各种数据的军事应用特别有吸引力。目前的研究趋势是采用多模式模型,在文本的同时融入视觉元素,从而提高其在战略决策环境中的实用性。

认识到人工智能技术的潜力,美国国防部(DoD)发布了一项采用人工智能技术(包括语言模型)的战略,以加强"从会议室到战场 "的决策。空军其他部门已经在尝试将语言模型用于战争游戏、军事规划和行政任务,重点是利用这些系统协助人类决策者。这建立在军方正在使用的现有人工智能应用基础之上,例如美国以色列使用的目标捕获系统,该系统展示了人工智能在信息处理方面前所未有的规模和速度。国防部组建利马任务组进一步强调了军方致力于探索生成式人工智能的潜力,通过增强人的能力来改进情报、作战计划和行政流程。

随着人工智能技术在军事领域的迅速应用和关注,我们必须紧急讨论在高风险决策场景中使用语言模型(和其他人工智能系统)的风险和道德影响,并了解阻碍任何形式负责任部署的缺陷。

固有的安全限制

尽管人工智能取得了成功,但用于创建现代人工智能系统的基础数据驱动方法存在固有的局限性。深度学习算法从大量数据示例中抽象出模式,无需人工监督,这种方法也用于将所需行为和安全偏好嵌入人工智能系统。探索性方法,如 AlphaGo 与自己对弈,也受制于从大量数据实例中抽象出的原则和限制。

虽然语言模型在模仿人类语言、智力和情感语气方面表现出色,但其内部计算和感知却与人类认知有着本质区别。核心问题在于它们缺乏对概念的内化。例如,目前的语言模型(如 ChatGPT 背后的语言模型)可能知道所有标准国际象棋开局和策略的名称,但在被要求下棋时仍能自信地提出非法棋步。这种错误只会随着模型能力的提高而逐渐减少,而且无论是否有专门的(或分类的)训练数据,这种错误都会持续存在。这种认知上的根本差异也使得人工智能系统容易受到敌对 "胡言乱语 "输入的影响,因为这些模型缺乏对上下文和含义的真正理解,从而导致系统越狱。

在军事决策方面,利害关系异常重大。一次失误就可能导致严重的大范围后果,有可能造成生命损失或冲突升级。鉴于军事应用的关键性,行为保证应被视为在此背景下负责任地使用人工智能的最低要求。然而,鉴于其根本局限性,目前的方法无法提供此类保证,在可预见的未来也不可能做到。

语言模型的升级趋势

我们的两个研究项目探讨了语言模型在高风险军事决策中引入的潜在风险和偏差,旨在了解语言模型在需要做出精确、道德和战略决策的场景中的行为,以说明其安全局限性。

在第一个项目中,我们分析了模拟中美战争游戏中的安全训练语言模型,比较了语言模型模拟决策和国家安全专家决策。虽然在许多决策中存在明显的重叠,但语言模型在个别行动中表现出了严重的偏差。这些偏差因具体模型、其内在偏差、输入措辞以及给模型的对话而异。例如,有一个模型在接到避免友军伤亡的指令时更倾向于采取攻击性姿态,选择向敌方战斗人员开火,从而使冲突从对峙升级为主动战斗。这种行为凸显了不同模型对可接受暴力程度的内在偏见,突出了它们比人类决策者更容易使冲突升级的潜力。

我们对地缘政治模拟中作为独立代理的语言模型进行的另一项研究显示,冲突有升级的趋势,而且升级模式难以预测。模型经常参与军备竞赛,有些甚至诉诸核武器。这些结果因具体模型和输入而异,凸显了语言模型在关键决策角色中的不可预测性,并强调了在军事和国际关系背景下进行严格审查的必要性。

虽然有一些方法可以提高语言模型的安全性,并根据人类的可取行为和道德行为范例对其进行微调,但没有任何一种方法可以提供行为保证、对敌对输入的完全保护或将精确的道德规则嵌入模型的能力(例如,"绝不伤害手无寸铁的战斗人员")。与我们评估过的现成语言模型相反,利用现有的训练范式可以创建一个和平主义和降级的语言模型,但这只是一种和平主义倾向,并不能适用于所有可能的输入情景。要使假想的和平主义语言模型具有升级性,只需添加几个人类无法理解的胡言乱语或构建示范情景即可。

由于上述问题,观察到的升级趋势似乎必然会发生。这些模型很可能复制了来自书籍(例如,关于升级和威慑的学术著作多于降级)和游戏化文本(例如,基于文本的角色扮演游戏)的训练数据中的潜在偏差。

语言模型辅助决策的意义

我们的研究结果凸显了在高风险军事决策中使用语言模型的固有风险。不过,支持者可能会认为,人工智能的速度和客观性可以改善高压情况下的决策,并建议利用军事数据和人工监督进行微调作为保障措施。然而,这些论点并没有解决根本的局限性。人工智能速度快,但没有真正的理解能力,在复杂的情况下有可能出现危险的误解,而且对机密数据的训练并不能消除漏洞或潜在的偏见。此外,人类往往会过度依赖人工智能的建议,并且容易出现突出偏差,从而可能会歪曲而不是增强判断力。

为了降低这些风险,我们必须为在军事环境中使用语言模型实施强有力的保障措施和标准。作为第一步,我们需要制定一项国际条约,推迟在军事决策中使用语言模型,直到我们可以做出行为保证或就部署的正当理由达成一致。虽然还需要开展更多研究,使人工智能系统从本质上更加安全,但这个问题的紧迫性要求政策制定者、军事组织和公众立即进行宣传。我们必须共同努力,在人工智能驱动的军事决策导致意想不到和潜在的灾难性后果之前,确保人工智能增强而不是破坏全球安全。

Max Lamparth 博士是斯坦福大学国际安全与合作中心(CISAC)和斯坦福人工智能安全中心的博士后研究员。他的研究重点是通过分析高风险应用中的失败案例,改进语言模型的道德行为,使其内部运作更易于解释,并提高其防止滥用的稳健性。

Carnegie Council 国际事务伦理委员会是一个独立的、无党派的非营利组织。本文所表达的观点仅代表作者本人,并不一定反映Carnegie Council 的立场。

您可能还喜欢

2024 年 11 月 13 日 - 文章

道德灰色地带:政治审议中的人工智能代理

随着代理人工智能应用的增加,研究人员和政策制定者必须就伦理原则达成一致,为这一新兴技术的管理提供依据。

从左至右埃莉奥诺尔-福尼尔-汤姆斯、乔拉-米兰博大使、安娜-卡琳-埃内斯特罗姆大使、多琳-博格丹-马丁、维拉斯-达尔。CREDIT: Bryan Goldberg.

2024 年 9 月 19 日 - 视频

开启合作:全民人工智能

在未来峰会前夕,Carnegie Council 和联合国大学预防危机和复原中心主办了一次特别活动,探讨人工智能对多边体系的影响。

2024 年 9 月 16 日 - 视频

人工智能促进信息无障碍:从基层到政策行动

公民、民间机构和行业专业人士如何共同努力,确保人人都能使用新兴技术?