People solve new problems readily without any special training or practice by comparing them to familiar problems and extending the solution to the new problem. That process, known as analogical reasoning, has long been thought to be a uniquely human abil
人们可以在没有任何专门培训或行动的情况下,通过比较重大问题的数量并将解决方案扩展到新问题,轻松解决新问题这个过程,众所周知,长期以来一直被认为是完全人性化的
但现在人们可能会因为新的孩子被锁而感到害怕
加州大学洛杉矶分校心理咨询师的研究表明,令人惊讶的是,GPT-3模式的人工智能语言管理以及大学本科生的表现,都需要解决在SAT等智能测试和标准化测试中可能出现的问题这项研究发表在《自然-人类行为》杂志上
Butthepaper的作者写道,该研究提出了一个问题:GPT-3是否在大规模语言训练数据存储的基础上模仿人类理性,这是一种全新的认知过程
由于无法访问GPT-3的内部工作——这是由创建编辑的公司OpenAI保护的——UCLA的科学家无法确定其工作原理他们写道,尽管GPT-3在某些特定任务中的表现远比他们预期的要好,但最终的人工智能工具却明显失败了
“不管我们的结果有多令人印象深刻,重要的是要强调这个系统有很大的局限性,”加州大学洛杉矶分校心理学博士后研究员、该研究的第一作者泰勒·韦伯说“这是一种逻辑推理,但它不能找到对人们来说很容易的东西,比如解决物理任务的工具。当我们发现这些问题——一些孩子可以快速解决的问题——这些问题就表明是有意义的。”
Webb和他的同事们根据Raven's Progressive Matrix的知识,研究了GPT-3解决问题的能力,该矩阵要求受试者在形状的复杂排列中预测下一个图像为了让GPT-3能够“看到”这些形状,Webb将图像转换为GPT-3可以处理的外部格式;这种方法也保证了我永远不会回答之前的问题
研究人员要求40名加州大学洛杉矶分校的本科生解决同样的问题
“令人惊讶的是,并不是所有的GPT-3都能很好地保护人类,而是需要很好的保护,”加州大学洛杉矶分校心理学教授、该研究的第一作者HongjingLu说
GPT-3直接解决了80%的问题——远远高于人类受试者略低于60%的平均水平,但也在人类得分最高的范围内
研究人员已要求GPT-3解决可能尚未在互联网上发布的SAT类似问题,这意味着这些问题不太可能是GPT-3训练数据的一部分这个问题可以选择两个单词,它们是关系的一种类型(例如,在“爱”到“有钱”的问题中,答案是“穷”。)
他们比较了GPT-3的分数,该分数是收集应用程序的SAT分数的结果,并发现AI的表现优于人类的平均分数
研究人员发现了GPT-3,研究人员自愿根据短篇小说来解决类似问题——促使他们进行分析,并确定传递相同含义的差异该技术在一些问题上不如学生,尽管OpenAI技术的最新成果GPT-4的表现要好于GPT-3
加州大学洛杉矶分校的研究人员开发了他们自己的计算机模型,该模型由人类认知启发,并将其与商业人工智能的可能性进行了比较
该研究的合著者、加州大学洛杉矶分校心理学教授Keith Holyoak说:“AI越来越好,但我们的心理AI模型在去年12月泰勒出现GPT-3最严重症状时仍然是最糟糕的模拟问题。”
GPT-3的研究人员无法解决需要理解物理空间的问题例如,如果提供了一种工具的描述——比如说,纸板管、剪刀和猿——它可以用来将火球从一个保龄球转移到另一个保龄球,GPT-3提出了相应的解决方案
Lusaid说:“语言学习模型正在努力进行语言预测,这让我们感到惊讶。”“在过去的两年里,这项技术已经从以前的版本中脱颖而出。”
加州大学洛杉矶分校的科学家们开始探索语言学习模式是否真正开始像人类一样“思考”,或者是否在做一些完全不同的事情来模仿人类的想法
Holyoaksaid说:“GPT-3可能会像人类一样思考。”“但另一方面,人们并不是通过吸收整个互联网来学习的,所以训练方法完全不同。我们想知道它是否真正做到了人们所做的事情,或者说它是一种全新的东西——一种人工智能——它会自己发挥作用。”为了找到答案,他们需要确定AI模型正在使用的最新认知过程,这将需要对软件和用于训练软件的数据的访问,以及尚未进行的对软件可用性的管理测试他们说,这将是决定未来的下一步
Webb说:“如果AI和公认的研究人员支持GPT模型,那将是非常有用的。”“我们只是在输入和输出,并不像我们希望的那样明智。”