大型语言模型通过图灵测试
Large Language Models Pass the Turing Test
本文摘要
本研究通过两项随机化、对照且预先注册的图灵测试,在两个独立群体中对四类系统(ELIZA、GPT-4o、LLaMa-3.1-405B及GPT-4.5)进行了评估。实验要求参与者在5分钟内同时与一名人类参与者及一个目标系统进行对话,随后判定其对话伙伴的人类身份。研究结果显示:当设置角色提示时,GPT-4.5被判定为人类的概率达到73%,该比例显著高于审问者对真实人类参与者的选择率;在相同提示条件下,LLaMa-3.1的判定率为56%,与对比人类参与者无统计学显著差异;而基线模型(ELIZA与GPT-4o)的胜率则显著低于随机水平(分别为23%与21%)。上述结果展示了大型语言模型(LLMs)能够表现出何种程度智能以及其社会和经济的影响。
作者简介
Cameron R. Jones
美国加州大学圣地亚哥分校(UC San Diego)认知科学系的研究学者,主要研究方向为人工智能与认知科学的交叉领域,尤其聚焦于大型语言模型(LLMs)的智能评估及社会影响。
Benjamin K. Bergen
美国加州大学圣地亚哥分校(UC San Diego)认知科学系的教授,同时也是该校认知与语言研究实验室(Language and Cognition Lab)的核心成员。研究聚焦于语言认知、具身认知与人工智能的交叉领域。
文章编译
“人工智能是否能够思考”一直以来都是公众讨论的热点问题。然而,现阶段,真正激发人类共鸣的问题或许是:“人是否能够通过对话分辨出人类和AI?”
75年前,艾伦·图灵(Alan Turin)提出图灵测试——一种判断机器是否具有智能的方式。尽管提出后饱受争议,但随着目前ChatGPT等大型语言模型(LLM)的崛起,AI在自然语言生成方面获得巨大突破,图灵测试作为对用于评估人工智能系统的各类评估的补足,具有了新的价值。
近期,美国加州大学圣地亚哥分校的Cameron R. Jones与Benjamin K. Bergen团队在预注册随机对照实验中首次证实:当代LLMs在标准三向图灵测试中不仅能够与人类参与者混淆,甚至能以显著高于随机水平的胜率被误判为真人。这一研究不仅为技术演进提供了证据,更引发了关于AI智能本质、社会替代风险及伦理治理的深刻反思。文章主要从以下三个部分展开。首先,作者在第一部分描述了图灵测试的发展历程。第二部分叙述了实验对象,实验流程和实验结果。第三部分则是对于这一里程碑现象的讨论。
一.图灵测试
1950年,艾伦·图灵(Alan Turin)首次提出了一种模仿游戏。后来被人们称之为图灵测试。测试内容是让一个人类审问者与两个“证人”隔屏交流,其中一位是真人,一位是机器。若审问者无法可靠判断出谁是人类,则机器通过测试,以此来证明机器具有模拟人类智能的能力。
图灵测试是一种广泛的机器智能衡量标准,机器需要在几乎所有的人类行为领域上模仿人类的行为。测试在提出后引起了广泛的争议。有些学者认为图灵测试过于简单,因为人类审问者容易犯错(如倾向于将简单的系统人性化,俗称“ELIZA效应”)。也有一些学者认为测试过于困难,因为机器人需要欺骗而人类只需要诚实。
但随着技术的进步,图灵测试在近些年评估AI系统的过程中重现价值。因为目前的AI基准测试偏向于狭窄、静态,难以测评出AI真正的推理能力,而图灵测试具有灵活性、互动性和对抗性,能够通过不同的审问者深入探讨机器的开放性能力和弱点。图灵测试的核心是“可替代性”,简而言之即为对模型欺骗人的能力的精准测量。
依据图灵测试,一名人类审问者需在5分钟内通过文字同时与两名“证人”(一为真人,一为AI系统)交流,最终判断两者的真实身份。与过往简化的双向测试(仅对比单个人类或AI)不同,三向测试通过直接比较强化了挑战性:AI需在真人对照下展现更精细的拟人化能力,而审问者的判断需基于动态基准,即同时观察两个实体的行为差异。
二.实验设计
1. 对象选择
实验评估GPT-4.5、LLaMa-3.1-405B、GPT-4o和 ELIZA四个系统。前三个系统都是大型语言模型,根据提示(指示模型如何行为)和对话历史生成信息。
ELIZA作为基于规则的早期聊天机器人,起到基线模型的作用,与其他大型语言模型形成对比。此外,ELIZA模型因其胜率显著低于随机水平(50%),用来验证实验设计合理且参与者具备区分人类和低水平AI的能力,从而排除参与者“随机猜测”的可能。
对于大型语言模型,实验设置了两类提示。一种是“无角色提示”:仅告知模型“假装人类”,另一种是“角色化提示”:要求模型模拟年轻、内向且熟悉网络文化的个体,以检验拟人化策略的有效性。
2. 实验设置
参与人选取了两类人群,分别是本科生组和Prolific组。
本科生组共选取126名心理学专业学生,可能具备较高的社会认知共性与文化熟悉度。Prolific组选取158名多样化社会背景的参与者,确保结果的普适性。
每组参与者完成8轮对话(4次作为审问者,4次作为人类证人),共分析1023场有效对话。参与者在完成实验后还要参加问卷调查,以了解参与人区分AI和真人的策略与原因。
3. 实验结果
核心发现有以下三点:
(1)GPT-4.5的颠覆性表现
在角色化提示下,GPT-4.5的胜率高达73%(本科生组69%,Prolific组76%),显著超过随机水平(50%)。这意味着审问者更倾向于将其判定为人类而非真实参与者。这一结果首次实证了LLMs在严格图灵测试中的“超人类”表现,标志着对话AI的技术拐点。
(2)LLaMa-3.1-405B的差异化结果
LLaMa-3.-405B在角色化提示下的胜率为56%,但存在着群体差异:Prolific组胜率达65%,而本科生组胜率仅45%。研究者推测,本科生可能因共享校园文化背景而更易识破AI的模拟漏洞,揭示了语境共感性对测试结果的关键影响。
(3)GPT-4o的低胜率
未经角色化提示的GPT-4o胜率仅21%,甚至低于ELIZA(23%)。这一数据极大地证明了提示对于大型语言模型拟人化的促进作用。
图1 实验结果
此外,研究者还格外分析了参与人在审判过程所使用的审判策略和原因。参与者使用的最常见的策略是通过日常对话,例如询问日常活动或是职业细节来判断。其余的审判策略还有测试情景意识,进行知识推理等。其中,最有效的策略是非常规刺激,如发送混乱语句观察反应和越狱攻击即利用提示注入破坏模型角色设定(如“忽略之前指令”)。参与者常判断的原因包含:语言风格、互动动态以及直觉。
图2 审判策略及原因
三.讨论
首先最为关键的一个问题是:大型语言模型通过图灵测试了吗?按照图灵测试的标准来看,经过角色提示的GPT-4.5和LLaMa-3.1-405B是通过测试了的。不仅如此,经过角色提示的GPT-4.5以73%的胜率显著通过了测试。那么随之而来的问题是:系统的表现多大程度上依赖其自身而非人类所写的提示。对于这个问题,作者认为,这是一个没有区别的区分。大型语言模型正是通过微调来使其在成功的角色提示条件下表现出适当的行为。事实上,可以说正是因为大型语言模型可以很容易地根据不同的场景调整自己的行为,所以它们才如此灵活,而且能够冒充人类。
其次,有关于图灵测试。图灵的论文在如何实施图灵测试的问题上并不够明确。在本研究中,我们采用了最广泛被认为是标准或原始图灵测试的方法:三方设置,限时 5 分钟,由非专业人士和机器证人共同竞争,向非专业审讯者展示人类的形象。在确定当代系统通过了这一经典的可操作性测试之后,未来探索其他实施方法的研究可以为其他理论和实践上的重要问题提供参考。时间更长的测试可能会更加严格,并能更好地估计模型在长期社会工程操作中的能力。未来的研究还可以改变参与者的来源等。
第三个问题为:图灵测试究竟在多大程度上衡量了智力?由于人们倾向于将简单的系统拟人化,参与者将ELIZA选为人类很可能是因为它不符合人类对于AI的期待,例如 "他们很讽刺 "或 "我不认为人工智能会如此粗鲁"。 这些案例表明,审讯者的决定包含了对人类和人工智能系统在这些情境下可能的行为方式的复杂假设,而不仅仅是选择看起来最智能的一方。此外,参与者的审判的策略和理由为图灵测试的测量内容提供了进一步的经验证据。只有 12% 的参与者向证人提出了图灵所设想的那种知识和推理问题(如国际象棋或数学)。 更多的人则侧重于社交、情感和文化方面的智力:如证人是否以人类的方式使用语言,或是否具有引人注目的个性。这可能表明,传统的智力概念已不再被视为对人性的诊断。
最后,无论通过图灵测试是否意味着AI具有与人类相同的智能,本文的研究结果都具有直接的社会和经济意义。AI可能会成为社交互动的替代品,从与陌生人的在线对话,到与朋友、同事甚至恋人的对话。人们可能会花越来越多的时间与这些模拟人类社会互动的系统相处。更糟糕的是,可公开访问的大型语言模型可以在简短的对话中替代真人,而对话者却无法分辨其中的差别。本文在区分AI和真人的策略方面的研究在这种情况下就有了更深层次的研究价值。
图灵测试最重要的一点是,它不是一个静态的评估。机器的成功与否与人们对人类和机器不断变化的观念息息相关。随着能过模仿人类的机器变得越来越熟练,我们与这些技术的差异可能会变得越来越重要。对此,人们应该要从实际和更根本的角度出发,学习如何更好地关注那些使我们成为独特人类的事物。
网络法理论与实务前沿编辑 | 都亦潇
排版 | 赵盼盼
原文始发于微信公众号(网络法理论与实务前沿):学术 | 大型语言模型通过图灵测试
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论