“很多语言模型在这些考试题上能做得很好,”Mitchell说,“但通常结论并不是它们在这些通用能力上超过了人类,而是试题有限。”研究者们提到的一个难题是,训练模型用的文本太多,它们可能已经在训练集里见过了类似的题目,因此实际上AI可能只是查了小抄。这个问题被称为数据污染。
OpenAI说它检查了问题和训练集中相似的词组,排除了这一点。从LLM中移除相似的词组后,它的表现没什么变化,也就是说其成功不能大部分归于数据污染。但是,有些研究者质疑这种检测够不够严格。
纽约大学的语言技术学家,同时也在AI公司Anthropic任职的Sam Bowman提醒说,不要把GPT-4的能力完全视作死记硬背而忽视了它的能力。数据污染“让问题复杂了一点,但我不认为这影响到问题本质。”
研究者们还注意到,LLM的成绩不够稳定,会做题不一定能做事。Mitchell说,稍微改一下考题就能让它们答错。例如,她从企业管理硕士生的考卷中拿了一道题目,稍微改了改说法。能做对原题的人类应该能答出改后的版本。但ChatGPT没答出来。
有关考试分数的意义还有一个更严重的问题。对人类来说,考高分可以可靠地证明智力水平——这词的含义有点模糊,不过其中一个意思是能在一系列任务中表现出色、并适应不同环境的能力。也就是说,考试考得好的人通常也能在其他认知测试中表现不错,也可以掌握某些抽象概念。但对LLM来说情况不是这样,Mitchell说;这些考试成绩和人类的情况截然不同。“用推断人类的方式去推断AI系统,往往不太行。”她说。
这可能是因为LLM只通过语言来学习;它没有现实世界中的身体,也无法像人一样体会到语言和事物、性质和感情之间的联系。“很显然,它们不是用人的方式来理解单词的。”Lake说。在他看来,LLM现在展现出来的是“流利的语言能力,但没有真正的理解力。”
往好的方面讲,LLM也有人类没有的能力——例如它能知道人类写过的几乎每个词之间的关联。这可能能让模型根据语言中的“怪癖”或是其他提示来解决问题,而不需要特意举一反三来扩展能力范围,Mitchell说。
OpenAI的研究员Nick Ryder也同意,(AI)在一项考试上得高分可能不像人类得分那样具有推广意义。“我觉得人们看到人类和LLM考试成绩后,不能简单地同等评估。”他说。OpenAI的分数“不意味着像人类一样的能力或类似人类的思考。它是用来说明模型在该任务上表现如何的。”
除了传统给机器设计的考题和人类考试以外,研究者们还对LLM作了更广泛的探索。3月,微软研究院的Sébastien Bubeck和同事们发表的《通用人工智能的火花:对GPT-4的初步实验》[5]预印本论文引发了热潮。他们记录了一系列令人惊讶的能力——很多都没有直接或明显地和语言相关。一项重大进展是它能通过心理学家用来测试心智理论的测试,这是让人类能预测并推理其他人精神状态的核心人类能力。文章中说,“考虑到GPT-4能力的广度和深度,我们认为它可以视为早期(但尚不完备)版本的通用人工智能(AGI)系统。”
但是,Bubeck也向《自然》澄清,“GPT-4明显没有像人一样思考,无论它展现出了何种能力,都是以它自己的方式做到的。”
虽然说得惊人,但这篇文章对LLM的能力的评估不够系统性,Mitchell说:“这更像人类学。”Ullman说要想说服人机器有心智理论,他就必须要看到对应人类心智理论的潜在认知过程证据,而不只是机器的输出和人类的答案一样。
要搞清楚LLM的长处和短处,就需要更全面更严格的评估,AI研究者说。这套彩色的逻辑谜题可能就是其中一项。