心理学家报告称，GPT-3的推理能力与大学生相当

人工智能语言模型GPT-3在解答标准化测试中的某些逻辑问题时表现与大学生相当。进行该实验的研究人员指出，这一结果引发了关于该技术究竟是模仿人类推理还是采用新型认知过程的思考。要解答这个问题，需要能够访问支撑GPT-3及其他人工智能软件的底层软件。

但现在，人们可能不得不为一个新出现的“家伙”腾出空间了。

加州大学洛杉矶分校（UCLA）心理学家的研究表明，令人惊讶的是，当被要求解决通常出现在智力测试和标准化测试（如SAT）中的推理问题时，人工智能语言模型GPT-3的表现与大学本科生相当。该研究发表在《自然·人类行为》上。

但该论文的作者写道，这项研究提出了一个问题：GPT-3模仿人类推理是其庞大语言训练数据集的副产品，还是它正在使用一种 fundamentally 新的认知过程？

由于无法访问GPT-3的内部运作——这些信息由其创建公司OpenAI保护——加州大学洛杉矶分校的科学家无法确切说明其推理能力是如何工作的。他们还写道，尽管GPT-3在某些推理任务上的表现远超他们的预期，但这个流行的人工智能工具在其他任务上仍然表现糟糕。

"无论我们的结果多么令人印象深刻，重要的是要强调这个系统存在重大局限性，"该研究的第一作者、加州大学洛杉矶分校心理学博士后研究员Taylor Webb说。"它可以进行类比推理，但无法完成对人类来说非常容易的事情，例如使用工具解决物理任务。当我们给它这类问题时——其中一些孩子们能快速解决——它提出的建议是荒谬的。"

Webb和他的同事们测试了GPT-3解决一系列问题的能力，这些问题的灵感来源于一项名为瑞文推理能力测试的测试，该测试要求受试者预测复杂形状排列中的下一个图像。为了使GPT-3能够"看到"这些形状，Webb将图像转换成了GPT-3可以处理的文本格式；这种方法也保证了人工智能之前从未遇到过这些问题。

研究人员要求40名加州大学洛杉矶分校的本科生解决相同的问题。

"令人惊讶的是，GPT-3不仅表现得和人类差不多，而且还会犯类似的错误，"该研究的资深作者、加州大学洛杉矶分校心理学教授Hongjing Lu说。

GPT-3正确解决了80%的问题——远高于人类受试者略低于60%的平均得分，但也完全在人类最高得分的范围内。

研究人员还促使GPT-3解决一系列他们相信从未在互联网上发布过的SAT类比问题——这意味着这些问题不太可能成为GPT-3训练数据的一部分。这些问题要求用户选择具有相同关系类型的词对。（例如，在问题"'爱'之于'恨'正如'富'之于哪个词？"中，答案将是'穷'。）

他们将GPT-3的分数与已公布的大学申请者的SAT分数进行了比较，发现该人工智能的表现优于人类的平均分数。

随后，研究人员要求GPT-3和学生志愿者基于短篇故事解决类比问题——让他们阅读一篇文章，然后识别出另一个传达相同含义的不同故事。在这类问题上，该技术的表现不如学生，尽管OpenAI技术的最新迭代版本GPT-4的表现优于GPT-3。

加州大学洛杉矶分校的研究人员开发了他们自己的计算机模型，该模型受人类认知的启发，并一直在将其能力与商业人工智能的能力进行比较。

"人工智能一直在进步，但直到去年12月Taylor获得最新升级的GPT-3之前，我们的心理学AI模型在解决类比问题方面仍然是最好的，而GPT-3的表现与之相当甚至更好，"该研究的合著者、加州大学洛杉矶分校心理学教授Keith Holyoak说。

研究人员表示，GPT-3迄今为止还无法解决需要理解物理空间的问题。例如，如果提供一组工具的描述——比如纸板管、剪刀和胶带——它可以用这些工具将口香糖从一个碗转移到另一个碗，GPT-3会提出奇怪的解决方案。

"语言学习模型只是在尝试进行词语预测，所以我们很惊讶它们能进行推理，"Lu说。"在过去的两年里，这项技术比以前有了巨大的飞跃。"

加州大学洛杉矶分校的科学家们希望探索语言学习模型是真的开始像人类一样"思考"，还是在进行某种完全不同的、仅仅是模仿人类思维的活动。

"GPT-3可能有点像人类那样思考，"Holyoak说。"但另一方面，人类不是通过摄入整个互联网来学习的，所以训练方法完全不同。我们想知道它是否真的在用人类的方式做事，或者这是否是全新的东西——一种真正的人工智能——这本身就令人惊叹。"

为了找到答案，他们需要确定人工智能模型正在使用的底层认知过程，这需要访问软件以及用于训练该软件的数据——然后进行他们确信该软件之前没有被测试过的测试。他们说，这将是决定人工智能应该成为什么样的下一步。

"对于人工智能和认知研究人员来说，能够访问GPT模型的后端将非常有用，"Webb说。"我们只能输入和获取输出，这并不像我们希望的那么决定性的。"