ChatGPT突破图灵测试：在“像人”和“不像人”方面都很行

加星标，才能不错过每日推送！方法见文末动图

大型语言模型可以模仿人类聊天，但科学家对其是否能推理意见不一。

撰文 | Celeste Biever

翻译 | 施普林格·自然上海办公室

世界上最好的人工智能（AI）系统可以通过困难考试，写出煞有介事的小论文，还能与人流利交谈，在很多人看来足以以假乱真。它们还有什么做不到的？——它们解不了简单的图形谜题。

在一项基于彩色图块的测试中，大多数人类都能识别出其中的模式。但根据今年5月发表的一篇论文 ^[1]，GPT-4——聊天机器人ChatGPT和搜索引擎Bing背后的最新版AI系统——在其中一类模式中只识别出了将近三分之一，在另一类模式中甚至只有3%。

插图：The Project Twins

提出这套逻辑题的团队的目的是能更好地评估AI系统的能力——以及帮助解决GPT-4这类大型语言模型（LLM）的一个难题。用某些方式测试，这些模型能轻松通过以前被认为是里程碑式成就的测试；换一种方法测试的话，它们就看起来没那么出彩了，会暴露出明显的弱项，并且也没法进行抽象概念的推理。

“AI领域的人们正在费尽心力研究这些系统如何评估。”圣菲研究所的计算机科学家Melanie Mitchell说。正是他的团队制作了这套逻辑谜题（见“击败机器的抽象思考测试”）。

击败机器的抽象思考测试

人工智能系统至今为止仍未能在ConceptARC测试中达到人类的水平。这组逻辑题要求解答者在看过几组示范之后，根据相同的逻辑关系判断出彩色像素图形会变成什么样。以下是两套例题，你能根据相同的逻辑关系判断出来吗？

滑动看答案

来源：参考文献[1]

在过去的2-3年里，LLM已经在泛用性上碾压了之前的AI系统。它们的原理很简单，就是根据输入的文字生成最可能的下一个单词，依据的则是用以训练的上亿句网络文本中单词之间的统计相关性。对基于LLM建造的聊天机器人来说，还有一个要素：人类训练员为这些机器人该如何回话提供了详尽的反馈。

使用大量人类语言进行训练之后，这种“自动填充”式算法就显现出了惊人的泛用性。其他AI系统可能会在某一项任务上击败LLM，但它们必须使用先用问题相关的数据进行训练，并且没办法从一项任务中举一反三推广到另一项上。

大体上说，研究者对LLM台面之下发生了什么有两种截然不同的看法，哈佛大学的认知科学家Tomer Ullman说。一部分人将算法的成功归因于出现了一点点推导或理解能力。另一些人（包括他自己和Mitchell等人）则更为谨慎。

“争论各方都是很聪明的人。”Ullman说。他说，之所以意见有分歧，是因为哪一方都没有决定性的证据。“我们没有某种盖革计数器，指一下就能说‘哔哔哔——有智能’。”

双方的研究员都认为，像这种能显示出人类与AI能力区别的逻辑测试是正确的方向。这种评价标准也可以用来说明今天的机器学习系统里缺了什么，由此细分人类智慧的组成，纽约大学的认知计算科学家Brenden Lake说。

有关如何测试LLM、以及测试能说明什么问题的研究，同样有着实用意义。如果要让LLM能在现实世界领域——从医学到法律——中应用的话，理解它们的能力限制就非常重要，Mitchell说：“我们必须理解它们能做什么，不能做什么，这样我们才能安全地使用它们。”

图灵测试死了吗？

机器智能领域最著名的测试一直都是图灵测试。它是英国数学家和计算机先驱阿兰·图灵（Alan Turing）于1950年提出的，当时计算机领域才刚诞生。图灵提出了一种评估方法，他称之为“模仿游戏”^[2]。在这个场景中，人类裁判会在看不见对方的情况下与一台电脑和一个人分别进行简短的文字对话。裁判能稳定判断出哪台是电脑吗？图灵认为，这个问题等价于“机器可以思考吗？”。

图灵没有说明这个场景中的很多细节，Mitchell强调，所以也就没有严格的评分标准。“它不是字面意义上能让机器做的那种测试——它更像是一个思想实验。”谷歌的软件工程师François Chollet说。

来源：Geopix/Alamy

但是用语言来测试机器是否能思考的想法延续了下来。在之前几十年里，商业家兼慈善家Hugh Loebner出资举办了每年一度的图灵测试大奖赛，被称为Loebner奖。人类裁判会和机器与人进行对话，并尝试猜出来谁是谁。但该大奖赛到2019年就停办了，因为Loebner本人去世了，不再有资金举办比赛，英国人工智能和行为模拟学会的计算机科学家Rob Wortham说。该组织自2014年起代表Loebner举办竞赛。他说LLM现在在这类比赛中会有很高概率骗过人类。LLM兴起在赛事停办后不久则纯属巧合。

其他研究者们也同意，GPT-4和其他LLM现在可能能通过大众所知的那个版本的图灵测试，也就是它们可以骗过许多人类，至少当对话短的时候没问题。五月，以色列公司AI21实验室的研究者们报告说超过150万人玩过了他们基于图灵测试写出来的在线游戏。玩家被分配聊两分钟，对方可能是其他玩家，也可能是被研究者设置来模仿人的LLM聊天机器人。玩家正确识别出机器人的比率只有60%，研究者说这比盲猜没好多少^[3]。

不过在这种游戏里，熟悉LLM的研究者们可能还是能赢。Chollet说他识别LLM很轻松——只要利用已知的系统弱点就可以。“如果你让我在这种情境里，问我‘在和LLM说话吗？’，那我肯定能说得上来。”Chollet说。

他说，关键是要让LLM脱离舒适区。他建议给LLM提一些和训练集中常见场景相似的变体。很多时候，LLM会参照训练集中的原始场景给出回答，而不是符合新场景的正确回答。

不过，Chollet等人怀疑用骗人测试作为计算机科学的目标并不合适。“这全部都是为了骗过陪审团。”Chollet说。这项测试会让聊天机器人的开发者把精力花在让AI玩把戏上，而不是开发一些有用或有趣的能力。

考题的危险

大多数时候，研究者评估AI时使用的不是图灵测试，而是用来评估特定能力的考题，例如语言能力，常识推理或数学能力。他们也在越来越多地使用为人类设计的学术和专业考试来作为考题。

当GPT-4于今年3月推出时，它背后的公司OpenAI使用了一套为机器设计的考题，其中包括了阅读理解、数学和编程。OpenAI说，GPT-4在其中大多数都得了高分^[4]。该公司还给GPT-4出了约30套考题，其中包括：给美国高中学生出的各科“大学先修课程”试题；美国各州用来测试医师行医能力的考试；以及美国研究生入学选拔时的考试GRE。在美国的统一律师资格考试（许多州将之作为律师资格认定程序的一部分）中，GPT-4得到了能考进前10%的成绩（见“AI系统的部分考试成绩”）。

“很多语言模型在这些考试题上能做得很好，”Mitchell说，“但通常结论并不是它们在这些通用能力上超过了人类，而是试题有限。”研究者们提到的一个难题是，训练模型用的文本太多，它们可能已经在训练集里见过了类似的题目，因此实际上AI可能只是查了小抄。这个问题被称为数据污染。

OpenAI说它检查了问题和训练集中相似的词组，排除了这一点。从LLM中移除相似的词组后，它的表现没什么变化，也就是说其成功不能大部分归于数据污染。但是，有些研究者质疑这种检测够不够严格。

纽约大学的语言技术学家，同时也在AI公司Anthropic任职的Sam Bowman提醒说，不要把GPT-4的能力完全视作死记硬背而忽视了它的能力。数据污染“让问题复杂了一点，但我不认为这影响到问题本质。”

研究者们还注意到，LLM的成绩不够稳定，会做题不一定能做事。Mitchell说，稍微改一下考题就能让它们答错。例如，她从企业管理硕士生的考卷中拿了一道题目，稍微改了改说法。能做对原题的人类应该能答出改后的版本。但ChatGPT没答出来。

有关考试分数的意义还有一个更严重的问题。对人类来说，考高分可以可靠地证明智力水平——这词的含义有点模糊，不过其中一个意思是能在一系列任务中表现出色、并适应不同环境的能力。也就是说，考试考得好的人通常也能在其他认知测试中表现不错，也可以掌握某些抽象概念。但对LLM来说情况不是这样，Mitchell说；这些考试成绩和人类的情况截然不同。“用推断人类的方式去推断AI系统，往往不太行。”她说。

这可能是因为LLM只通过语言来学习；它没有现实世界中的身体，也无法像人一样体会到语言和事物、性质和感情之间的联系。“很显然，它们不是用人的方式来理解单词的。”Lake说。在他看来，LLM现在展现出来的是“流利的语言能力，但没有真正的理解力。”

往好的方面讲，LLM也有人类没有的能力——例如它能知道人类写过的几乎每个词之间的关联。这可能能让模型根据语言中的“怪癖”或是其他提示来解决问题，而不需要特意举一反三来扩展能力范围，Mitchell说。

OpenAI的研究员Nick Ryder也同意，（AI）在一项考试上得高分可能不像人类得分那样具有推广意义。“我觉得人们看到人类和LLM考试成绩后，不能简单地同等评估。”他说。OpenAI的分数“不意味着像人类一样的能力或类似人类的思考。它是用来说明模型在该任务上表现如何的。”

除了传统给机器设计的考题和人类考试以外，研究者们还对LLM作了更广泛的探索。3月，微软研究院的Sébastien Bubeck和同事们发表的《通用人工智能的火花：对GPT-4的初步实验》^[5]预印本论文引发了热潮。他们记录了一系列令人惊讶的能力——很多都没有直接或明显地和语言相关。一项重大进展是它能通过心理学家用来测试心智理论的测试，这是让人类能预测并推理其他人精神状态的核心人类能力。文章中说，“考虑到GPT-4能力的广度和深度，我们认为它可以视为早期（但尚不完备）版本的通用人工智能（AGI）系统。”

但是，Bubeck也向《自然》澄清，“GPT-4明显没有像人一样思考，无论它展现出了何种能力，都是以它自己的方式做到的。”

虽然说得惊人，但这篇文章对LLM的能力的评估不够系统性，Mitchell说：“这更像人类学。”Ullman说要想说服人机器有心智理论，他就必须要看到对应人类心智理论的潜在认知过程证据，而不只是机器的输出和人类的答案一样。

要搞清楚LLM的长处和短处，就需要更全面更严格的评估，AI研究者说。这套彩色的逻辑谜题可能就是其中一项。

新鲜的谜题

2019年，LLM闪亮登场之前，Chollet已在网上发布了一套给AI系统用的全新逻辑测试，叫做抽象与推理语料库（ARC）^[6]。解答者需要看过几组一个网格图变成另一个网格图的示例，然后说明下一组图会变成什么样，来证明他们已经掌握了规则。“设计这套题目是为了测试适应没见过的东西的能力。”Chollet说，她认为这正是智力的本质。

ARC捕捉到了“人类智力的特征”，Lake说——即对日常知识进行抽象，并应用到此前未见过的问题上的能力。

Chollet于2020年组织了一届ARC比赛，那时LLM还没火起来。获胜的机器人是专门训练来解ARC类题目的，不过不像LLM有广泛的应用场景。它只做对了21%的题目。与之对照的是人类能做出80%的ARC题目^[7]。一些团队现在在使用ARC来测试LLM的能力；每一个都比人类差远了。

Mitchell和她的同事们新做了一套受ARC启发的题目（叫做ConceptARC），但有两个关键不同^[1]。ConceptARC测试更简单：Mitchell的团队希望保证这套题目能捕捉到机器能力上的微小进步。另一个不同点是团队选择了特定的概念来测试，然后为每个概念设计了一组同一主题变体的谜题。

例如，为了测试“相同”这个概念，一个谜题要求解答者保留所有形状相同的物体；另一个题目则要求保留沿着同一根轴排列的物体。设计目的就是减少AI系统没把握概念就猜对题目的可能性（见“击败机器的抽象思考测试”）。

低分说明什么

研究者们把ConceptARC的题出给了GPT-4和网上的400个人。人类平均在所有概念组里得到了91分（最高一组得了97分）。GPT-4最高组得了33分，其他组都不到30分。

“我们证明了机器还远达不到接近人类的程度。”Mitchell说，“它能解出里面一些问题就已经很了不起了，因为它从没专门训练过。”她补充说。

团队还测试了Chollet的比赛中获胜的那些机器人，它们不是像LLM那样的泛用系统，但专门设计来解ARC这样的视觉题目。总体上说，它们比GPT-4表现好，但比人类表现差，最好的一项得了77分，大多数不到60^[1]。

但是，Bowman说GPT-4不会做ConceptARC不能证明它缺乏抽象推理的能力。他说ConceptARC对GPT-4不利——不提别的，它可是个图形测试。“即使这些模型非常擅长这类推理，我觉得你也不能期待这组实验能成功。”他说。

测试的形式限制也给GPT-4加大了难度。公开发布的LLM只能接受文字输入，所以研究者们给GPT-4输入了一个数组来表达图像（比如空白像素可能是0，不同颜色块就是不同的数字）。与之相比，人类参加者直接就能看到图片。“我们在拿只有语言的系统和人类比，人类的视觉系统可高级多了。”Mitchell说，“所以这个比较可能不完全公平。”

OpenAI给GPT-4开发了一套“多模式”版本，可以接受图像输入。Mitchell和她的团队在等这个版本可以公开使用，这样他们就能用ConceptARC来测试一遍了。不过她觉得多模式的GPT-4也不会进步很多。“我不认为这些系统会有和人类一样的抽象概念和推理能力。”她说。

麻省理工大学的计算认知科学家Sam Acquaviva也同意。“不然我会大吃一惊。”他说。他提到有另外一支团队使用一套叫1D-ARC的题目测试了GPT-4，其中模式都局限在了一维数列上，而不是二维的网格图^[8]。这就能消除一部分不公平了，他说。虽然GPT-4的表现有所改进，但还是不足以证明LLM可以稳定地理解底层规则并进行推理，Acquaviva说。

推理的证据

Bowman提到了其他实验，他认为那些实验综合起来理解，能说明LLM获得了至少是初步的抽象推理能力。一个例子是哈佛大学的计算机科学家Kenneth Li和他的同事做的，使用了一套电子版的黑白棋。两个玩家轮流在8*8的棋盘上下黑棋和白棋。他们的目的是检测LLM是不是基于记忆中语言的表面统计规律来生成文字，还是有可能和人类一样构建了对世界的内蕴解释。

当他们使用玩家的棋谱训练LLM之后，模型变得更擅长生成合法的走子位置了。研究者们认为他们有了证据证明LLM有在记录盘面的状态——并且它是用这个表征来走下一步，而不仅仅是根据文字^[9]。

Bowman承认，LLM的推理能力总体上说还是“有好有坏”，比人类受限很多——但他说推理能力已经存在了，并且随着模型大小而增长，因此他认为未来的LLM可能会更好。“这些系统明显还远没有我们想要的那么可靠或泛用，也可能有些抽象推理能力它们还完全不行。”他说，“但我觉得基础能力已经存在了。”

Bowman、Mitchell和其他人都同意的一件事是，测试LLM的抽象推理能力和其他智力形式的最好方案还是个未解决的空白。斯坦福大学的认知科学家Michael Frank认为不会有一套全方位的测试来替代图灵测试。“没有什么界河，没有单线图。”他说。相反，研究者们会需要很多测试来量化不同系统的强项和弱项。“这些AI很棒，但它们出问题的情况也非常非常多，系统性地检验绝对重要。”他说。

Wortham建议任何想要尝试理解AI系统的人：避开“拟人诅咒”。“我们会把所有看起来有智力的东西拟人化。”他说。

“这是个诅咒，因为我们没法想象任何表现出目的导向行为的东西，只能拿人类当模板。”他说，“而我们会想象说，它们这么做是因为它们在底层思考上和我们一样。”

参考文献

[1] Moskvichev, A., Odouard, V. V. & Mitchell, M. Preprint at https://arxiv.org/abs/2305.07141 (2023).

[2] Turing, A. M. Mind LIX, 433–460 (1950).

[3] Jannai, D., Meron, A., Lenz, B., Levine, Y. & Shoham, Y. Preprint at https://arxiv.org/abs/2305.20010 (2023).

[4] OpenAI. Preprint at https://arxiv.org/abs/2303.08774 (2023).

[5] Bubeck, S. et al. Preprint at https://arxiv.org/abs/2303.12712 (2023).

[6] Chollet, F. Preprint at https://arxiv.org/abs/1911.01547 (2019).

[7] Johnson, A., Vong, W. K., Lake, B. M. & Gureckis, T. M. Preprint at https://arxiv.org/abs/2103.05823 (2021).

[8] Xu, Y., Li, W., Vaezipoor, P., Sanner. S. & Khalil, E. B. Preprint at https://arxiv.org/abs/2305.18354 (2023).

[9] Li, K. et al. Proc. Eleventh Int. Conf. Learn. Represent. https://openreview.net/forum?id=DeG07_TcZvT (2023).

本文经授权转载自微信公众号“Nature Portfolio”，原文以ChatGPT broke the Turing test — the race is on for new ways to assess AI标题发表在2023年7月25日《自然》的新闻特写版块上。

英文原文：https://www.nature.com/articles/d41586-023-02361-7?utm_medium=organic_social&utm_source=wechat&utm_campaign=CONR_PF020_ENGM_AP_CNCM_002E6_allnf