但如今,人们或许需要为一位新晋的强者腾出位置了。
加州大学洛杉矶分校心理学家的研究表明,令人惊讶的是,人工智能语言模型GPT-3在解决通常出现在智力测试和SAT等标准化考试中的推理问题时,表现与大学生相当。该研究发表在《自然·人类行为》期刊上。
但论文作者指出,这项研究提出了一个问题:GPT-3的推理能力是其海量语言训练数据产生的副产品(模仿人类推理),还是它正在运用一种全新的认知过程?
由于无法接触GPT-3的内部工作机制——其由开发公司OpenAI严格保密——加州大学洛杉矶分校的科学家无法确切解释其推理能力的工作原理。他们还写道,尽管GPT-3在某些推理任务上的表现远超预期,但这款热门AI工具在其他方面仍存在显著缺陷。
"无论结果多么令人惊叹,都必须强调该系统存在重大局限,"该研究第一作者、加州大学洛杉矶分校心理学博士后研究员泰勒·韦布表示。"它能进行类比推理,却无法完成对人类而言非常简单的事,例如使用工具解决物理任务。当我们提出这类问题(其中有些儿童能快速解决)时,它给出的解决方案荒谬不堪。"
韦布及其同事测试了GPT-3解决系列问题的能力,这些问题源自瑞文渐进式矩阵测试——要求受试者预测复杂形状排列中的下一幅图像。为使GPT-3能"看见"图形,韦布将图像转换为GPT-3可处理的文本格式;这种方法也确保AI此前从未接触过这些题目。
研究人员要求40名加州大学洛杉矶分校本科生解决相同问题。
"令人惊讶的是,GPT-3不仅表现与人类相当,连犯错模式也相似,"该研究资深作者、加州大学洛杉矶分校心理学教授卢洪静表示。
GPT-3正确解决了80%的问题——远高于人类受试者平均不足60%的得分,但仍处于人类最高得分区间范围内。
研究人员还引导GPT-3解答一系列SAT类比题,他们认为这些题目从未在互联网上发布过——意味着这些问题不太可能出现在GPT-3的训练数据中。题目要求用户选择具有相同关系类型的单词对。(例如题目"‘爱’之于‘恨’,犹如‘富’之于哪个词?"的答案应为"穷"。)
他们将GPT-3得分与已公布的大学生申请者SAT成绩对比,发现AI表现优于人类平均分。
随后研究人员要求GPT-3和学生志愿者根据短篇故事解决类比问题——引导他们阅读一段文字后,找出传达相同含义的另一则故事。在这些问题上,该技术的表现逊于学生,不过OpenAI的最新一代技术GPT-4表现优于GPT-3。
加州大学洛杉矶分校研究人员已开发出受人类认知启发的自有计算机模型,并持续将其能力与商业AI进行对比。
"AI在不断进步,但直到去年12月泰勒获得GPT-3的最新升级版前,我们的心理AI模型在类比问题解决上始终保持领先,"该研究合著者、加州大学洛杉矶分校心理学教授基思·霍利约克表示。"升级后的GPT-3表现与我们的模型相当甚至更优。"
研究人员表示,GPT-3目前仍无法解决需要理解物理空间的问题。例如,当提供可用工具(如纸板管、剪刀和胶带)的描述,要求将口香糖球从一个碗转移到另一个碗时,GPT-3提出了荒诞的解决方案。
"语言模型本只是进行词语预测,因此它们能进行推理令我们惊讶,"卢洪静说。"过去两年间,该技术已实现从前期版本的巨大飞跃。"
加州大学洛杉矶分校科学家希望探究:语言学习模型是否真的开始像人类一样"思考",还是在执行某种完全不同的、仅模仿人类思维的行为。
"GPT-3可能具有某种类人思维,"霍利约克表示。"但另一方面,人类并非通过吞噬整个互联网来学习,因此训练方法截然不同。我们想确认它是否真以人类方式运作,抑或是某种全新事物——真正的人工智能——后者本身就将令人惊叹。"
为探明真相,他们需要确定AI模型使用的底层认知过程,这需要获取软件及其训练数据——然后实施他们确信该软件从未接触过的测试。他们表示,这将成为决定AI未来发展方向的重要一步。
"若能接触GPT模型的后端,对AI和认知研究者将极具价值,"韦布指出。"目前我们仅能进行输入输出操作,这远未达到我们期望的决定性程度。"
Story Source:
Materialsprovided byUniversity of California - Los Angeles. Original written by Holly Ober.Note: Content may be edited for style and length.
Journal Reference:
Webb, T., Holyoak, K.J. & Lu, H.Emergent analogical reasoning in large language models.Nat Hum Behav, 2023 DOI:10.1038/s41562-023-01659-w
2025-08-04
2025-08-04
2025-08-04
2025-08-04
2025-08-04