人工智能在原始创造性思维测试中进入前1%

新研究表明,在创造力测试的标准上,人工智能可以媲美人类顶尖1%的思想家。

该研究由密歇根大学商学院助理临床教授埃里克·古兹克博士指导。他与合作伙伴使用了托兰斯创造性思维测试(TTCT),这是一套数十年来用于评估人类创造力的知名工具。

研究人员提交了由GPT-4人工智能引擎驱动的应用程序ChatGPT生成的八份回答,同时提交了古兹克教授创业学和个人理财课程的24名密歇根大学学生组成的对照组答案。这些分数与2016年参与TTCT测试的2700名全美大学生进行了比较。所有提交的答案均由学术测试服务公司评分,且该公司并不知晓人工智能参与了测试。

结果显示ChatGPT在创造力方面跻身精英行列。该AI应用在流畅性(产生大量想法的能力)和原创性(提出新想法的能力)方面位列前百分之一。在灵活性(生成不同类型和类别想法的能力)方面,其表现略逊,但仍处于第97个百分位。

古兹克说:"对于ChatGPT和GPT-4,我们首次证明它在原创性方面表现达到前1%的水平。这是新发现。"他欣慰地注意到,他的一些密歇根大学学生也达到了前1%的水平。然而,ChatGPT的表现超过了绝大多数美国大学生。

古兹克在春季学期对AI和他的学生进行了测试。西密歇根大学的克里斯蒂安·吉尔德和维尔纽斯大学的克里斯蒂安·比尔格协助了这项工作。研究人员于五月在南俄勒冈大学创造力会议上展示了他们的成果。

古兹克说:"我们在会议上非常谨慎,没有对数据进行过多解读。我们只是展示了结果。但我们分享了强有力的证据,表明AI似乎正在发展出与人类能力相当甚至超越人类能力的创造力。"

古兹克说,他询问过ChatGPT,如果它在TTCT测试中表现出色,这意味着什么。AI给出了一个强有力的答案,他们在会议上分享了这一点:

他说:"ChatGPT告诉我们,我们可能并未完全理解人类创造力,我认为这是对的。它还建议我们可能需要更复杂的评估工具,来区分人类产生的想法和AI产生的想法。"

他说TTCT测试是受保护的专有材料,因此ChatGPT无法通过访问互联网或公共数据库中的测试信息来"作弊"。

古兹克长期以来一直对创造力感兴趣。在马萨诸塞州帕尔默小镇长大上七年级时,他参加了一个天才学生项目。那次经历让他接触到了由先驱心理学家埃利斯·保罗·托兰斯开发的未来问题解决流程,托兰斯也是TTCT测试的创建者。古兹克说,那时他就爱上了头脑风暴以及它如何挖掘人类的想象力,并且他至今仍活跃在未来问题解决组织中——甚至在一次会议上认识了他的妻子。

 

古兹克和他的团队在过去一年试用ChatGPT后,决定测试其创造力。他说:"我们一直在探索ChatGPT,注意到它做了一些我们意想不到的有趣事情。有些回答新颖且令人惊讶。那时我们决定对其进行测试,看看它到底有多大的创造力。"

古兹克说,TTCT测试使用的提示模仿了现实生活中的创造性任务。例如,你能想到产品的新用途或改进这个产品吗?

他说:"假设它是一个篮球。尽可能多地想出篮球的用途。你可以把它投进篮筐,也可以用来展示。如果你强迫自己思考新用途,也许你可以把它切开来当花盆。或者用砖头,你可以建造东西,也可以用作镇纸。但也许你可以把它磨碎,重塑成全新的东西。"

古兹克原本预料ChatGPT会擅长产生大量想法(流畅性),因为这是生成式AI的专长。它在根据提示提出许多在评估者眼中具有相关性、实用性和价值的想法方面表现出色。

更让他惊讶的是,它在产生原创想法方面做得如此之好,而原创性是人类想象力的标志。测试评估者会得到针对某个提示的常见回答列表——这些几乎是预期会提交的答案。然而,AI在提出新颖回答方面进入了前百分之一。

古兹克说:"在会议上,我们了解了一年前对GPT-3进行的前期研究。那时,ChatGPT在涉及原创性思维的任务上得分不如人类。现在随着更先进的GPT-4出现,它在所有人类回答中进入了前1%。"

随着AI的加速发展,他预计AI将成为未来商业世界的关键工具,以及区域和国家创新的重要新驱动力。

古兹克说:"对我来说,创造力就是与众不同地做事。我喜欢的一个创业定义是,成为企业家就是要以不同的方式思考。因此,AI可能帮助我们应用创造性思维的世界来推动商业和创新过程,这对我来说非常迷人。"

他表示,密歇根大学商学院对教授AI知识并将其融入课程持开放态度。

古兹克说:"我认为我们知道未来将以某种方式包含AI。我们必须谨慎对待其使用方式,并考虑必要的规则和法规。但企业已经在许多创造性任务中使用它了。就创业和区域创新而言,这正在改变游戏规则。"