电脑屏幕上的 ChatGPT 主页

图片来源:Jonathan Kemper(Unsplash)

2024 年 5 月 15 日 - 文章

预测人工智能在外交中的应用情景

卡内基伦理加速器2023 年 11 月 8 日召开的关于人工智能在外交中的应用的会议上,与会者共同创造了将人工智能用于翻译、研究和构思任务的潜在情景(未来五年内)。以下情景受该工作会议启发。这些场景是结合一份公报制定的:人工智能在外交中的利弊权衡

驱动因素是关键的技术、经济、社会、文化(等)因素,这些因素增加了情景成为现实的可能性。置信度分数反映了情景的估计可能性。0 分表示该情景不可能发生,0.5 分表示该情景发生的可能性与不发生的可能性相当,1 分表示该情景肯定会发生。

笔译和口译场景

Mucktarr Darboe MY的评论

情景 1

来自荷兰的外交官泰丝-贝克(Tess Baker)受命领导一场多边谈判,旨在敲定荷兰与希腊之间的贸易协定。在谈判过程中,一个大型语言模型(LLM)被用来实时翻译讨论内容。由于系统造成的一些翻译错误和分类不当,会议室里对协议规定的混淆蔓延开来。这导致了进一步的争论,动摇了利益相关者对谈判进程的信心。

驾驶员

  1. 复杂的语言和术语
  2. 对背景和社会文化的敏感性
  3. 技术限制(实时系统限制)
  4. 谈判文本模棱两可
  5. 缺乏反馈回路

评论:

Tess Baker 的情景突出了在多边谈判中使用 LLM 进行实时翻译时可能出现的挑战。复杂的语言和术语、语境和文化上的细微差别,以及实时约束和系统限制的压力,都是造成潜在错误和误解的障碍。此外,谈判文本中的模糊性以及缺乏改进翻译的反馈回路,也使这一过程变得更加复杂,导致利益相关者之间产生混淆。尽管如此,只要认真考虑这些障碍,并采取积极措施,如使用训练有素的译员和向翻译系统提供上下文信息,就可以降低使用本地语言工具进行实时翻译的相关风险。

信心分数:0.75

情景 2

Selam Hailu 是加拿大驻埃塞俄比亚外交使团的一名年轻翻译。他拥有软件工程背景,负责监督一个项目的推广,该项目使用 LLMs 每日翻译数千份埃塞俄比亚媒体、新闻和情报文件,供加拿大外交官日常简报使用。在测试中,该系统的翻译准确率达到 99.5%。Hailu 的团队成员精通阿姆哈拉语、奥罗莫语、法语和英语,他们会人工审核输出结果并纠正发现的错误。根据一家外部审计公司为期三个月的研究,新的工作流程为 Hailu 团队节省了 30% 的时间和资源,并提高了整体任务绩效。

驾驶员

  1. 软件工程背景
  2. 由精通业务的团队成员进行人工审核
  3. 外聘审计公司研究
  4. 在日常翻译中使用法律硕士
  5. 提高效率和资源分配

评论:

海卢的软件工程背景和专业知识使他能够有效监督 LLM 项目,确保其与特派团工作流程的无缝整合。他的精通业务的团队成员进行的人工审核为质量控制增加了重要的一环,提高了翻译的准确性。外部审计公司的研究为项目的成功提供了客观证据,增强了利益攸关方的信心。使用法律硕士进行日常翻译的决定极大地提高了效率和准确性,所实现的高翻译准确率就证明了这一点。这与人工审核流程相结合,使海陆团队的时间和资源增加了 30%,从而全面提高了任务绩效。

信心指数: 0.85

研究设想

爱德华多-阿尔布雷希特的评论

情景 1

两个国家同意进行核谈判,目标是系统地削减其库存。其中一个国家部署了一个 LLM 来总结以往的国际谈判和协议,并预测不同谈判策略可能产生的结果。该模型会产生幻觉,生成虚构的战术信息,以及这些战术与限制战略武器会谈(SALT I 和 II)和《联合全面行动计划》(JCPOA)谈判成功的因果关系。这些建议的战术被采用,导致谈判失败。

驾驶员

  1. 自动化偏见,即更相信计算机输出而非人为判断的倾向
  2. 外交人员在使用当地法律文书时粗心大意、杂乱无章、缺乏条理
  3. 对模型为何需要产生幻觉才能有效的理解不足

评论:

关于驱动程序三,重要的是要明白,制造 LLM 的明确目的是让人产生幻觉。我们的想法是让它们模仿人类的行为和创造力,因此它们必须具有不精确的倾向。我们越接近人工通用智能(AGI),这一点就越明显。例如,我们希望人工智能能够写诗。我们有责任接受这一点。我认为这种情况不太可能发生,因为在这可能导致谈判失败之前,有很多保障措施。

信心分数: 0.25

情景 2

大洋洲多个国家进行环境谈判,旨在防止生物多样性的丧失。夏洛特-威尔逊(Charlotte Wilson)领导的研究团队负责分析有关物种数量、栖息地丧失、气候模式、生态系统随时间的变化以及环境立法等方面的大量数据和政策文件。她利用 LLM 来检查由其团队成员汇编和检查的数据集,该数据集发现了之前被忽视的环境教育补贴与地区生物多样性增长之间的相关性。这一洞察力为围绕教育改革达成新协议奠定了基础。

驾驶员

  1. 出现专门针对某些知识领域的特定领域法律硕士工具;这些工具可能来自学术界和/或私营部门
  2. 将 LLM 与其他类型的统计计算和 ML 方法相融合,在分析文本数据的同时分析非文本数据(即生物多样性统计)。
  3. 新型代理人工智能界面,允许非数据科学专家与复杂的统计系统互动

评论:

要做到这一点,必须将几个活动部分结合起来。首先,为了识别有意义的相关性,LLM 需要更好地磨练特定类型的领域知识,即对特定领域(如本例中的气候科学)的概念和理论的理解。其次,为了挖掘相关性,LLM 需要与其他工具整合,这些工具更擅长这项任务,并且依赖于结构化的数字数据来提取模式。第三,LLMs 要想行之有效,就不能是独立的解决方案,要想挖掘出类似上述的相关性,就需要与人类建立顺畅的接口,就像量身定制的人工智能代理所提供的那样。

置信度: 0.95

构思和预测方案

帕夫利娜-伊特尔 逊和索琳娜-特列阿努的评论

情景 1

某联邦政府授权人工智能系统模拟政策行动的经济影响。该模型根据财政政策文件、贸易和关税政策、劳动力市场指令、研发简报和知识产权专利等数据进行训练。在进行分析后,系统会返回一种情景,即收紧边境限制会导致失业率下降和就业增长。就在邻国遭遇难民危机的几周前,立法机构中的一派好战分子利用模拟结果颁布了新的限制性移民政策。这导致边境混乱,并加剧了该地区各国之间日益紧张的关系。

驾驶员

  1. 联邦政府为人工智能系统颁发许可证。联邦政府为人工智能系统的设计、使用和实施设定边界,以模拟政策行动的经济影响。该方案没有概述要模拟政策行动的哪些经济影响,也没有概述人工智能模拟在多大程度上会为政策行动提供信息。
  2. 人工智能系统。目前的情况并不包括对就业、移民、可用技能等所有数据集的人工智能培训。人工智能系统只考虑国家层面的指标和政策。自动化与预测之间的联系、边境限制与就业之间的相关性以及跨境政策影响等方面的信息缺失。
  3. 立法机构中的金戈铁马派及其根据人工智能模拟实施限制性移民政策的能力。

信心分数: 0.5

情景 2

南美洲的一家跨国非营利组织一直在使用人工智能系统预测和预报潜在的风暴和气候相关灾害。该系统由重新编程的 LLMs 支持,用于时间序列预测,参考卫星、气象传感器和其他监测设备的数据,跟踪天气状况、降雨量、海面温度、云层等。通过预测分析,该模型对人口稠密地区的洪灾进行高置信度预测,并生成一份政策建议清单,以减轻洪灾的影响。非营利组织为地方政府编制报告,并向官员们介绍情况,他们一致认为应做好准备工作。然后分配集体资源,以应对气候难民跨境流动水平的提高。由于达成了这一协议,气候事件中的生命和财产损失被大大降低。

驾驶员

  1. 总部设在南美洲的跨国非营利组织。该非营利组织在跨国层面上如何运作,如何与当地政府联系,这些都是未知数。未知因素包括非营利组织运作的法律、文化和政府间方面,这些因素都会对这一方案的结果产生影响。
  2. 政府与其他利益相关者之间的关系。该方案假定地方政府与跨国非营利组织之间高度信任。此外,该方案还假设有渠道将非营利组织的研究结果纳入决策程序,从而使政府能够根据非营利组织的建议对政策进行修改。
  3. 财政和人力资源的分配与可用性。该设想方案假定,用于抗击洪灾和相关移民活动的资金和其他资源已经到位,而且国际社会已就如何分配这些资源达成总体协议。

评论:

假设所有有利因素都已具备(信任、资源等),我们的信心分数将接近 1。人工智能肯定能做到这一点,而且如果所有其他要素都具备,那么这种情况就极有可能发生。

信心分数: 0.5

您可能还喜欢

2023 年 5 月 16 日 - 新闻

Carnegie Council 启动伦理加速器

今天,新的伦理问题正以指数级的速度出现,社会在国际事务领域面临着重大挑战。对此,Carnegie Council ...

2024 年 2 月 14 日 - 视频

绘制数据融合对自由、安全和人权的影响图

本小组讨论由高级研究员阿瑟-荷兰-米歇尔主持,探讨了数据融合的影响,并研究了围绕其开发和使用的伦理问题。

2023 年 7 月 5 日 - 文章

人工智能国际治理框架

Carnegie Council与电气和电子工程师学会(IEEE)合作,提出了一个由五个部分组成的人工智能治理框架,以促进人工智能的建设性使用。