人工智能在原始创造性思维测试中进入前1%

新研究表明，在创造力测试的标准上，人工智能可以媲美人类顶尖1%的思想家。

该研究由密歇根大学商学院助理临床教授埃里克·古兹克博士指导。他与合作伙伴使用了托兰斯创造性思维测试（TTCT），这是一套数十年来用于评估人类创造力的知名工具。

研究人员提交了由GPT-4人工智能引擎驱动的应用程序ChatGPT生成的八份回答，同时提交了古兹克教授创业学和个人理财课程的24名密歇根大学学生组成的对照组答案。这些分数与2016年参与TTCT测试的2700名全美大学生进行了比较。所有提交的答案均由学术测试服务公司评分，且该公司并不知晓人工智能参与了测试。

结果显示ChatGPT在创造力方面跻身精英行列。该AI应用在流畅性（产生大量想法的能力）和原创性（提出新想法的能力）方面位列前百分之一。在灵活性（生成不同类型和类别想法的能力）方面，其表现略逊，但仍处于第97个百分位。

古兹克说："对于ChatGPT和GPT-4，我们首次证明它在原创性方面表现达到前1%的水平。这是新发现。"他欣慰地注意到，他的一些密歇根大学学生也达到了前1%的水平。然而，ChatGPT的表现超过了绝大多数美国大学生。

古兹克在春季学期对AI和他的学生进行了测试。西密歇根大学的克里斯蒂安·吉尔德和维尔纽斯大学的克里斯蒂安·比尔格协助了这项工作。研究人员于五月在南俄勒冈大学创造力会议上展示了他们的成果。

古兹克说："我们在会议上非常谨慎，没有对数据进行过多解读。我们只是展示了结果。但我们分享了强有力的证据，表明AI似乎正在发展出与人类能力相当甚至超越人类能力的创造力。"

古兹克说，他询问过ChatGPT，如果它在TTCT测试中表现出色，这意味着什么。AI给出了一个强有力的答案，他们在会议上分享了这一点：

他说："ChatGPT告诉我们，我们可能并未完全理解人类创造力，我认为这是对的。它还建议我们可能需要更复杂的评估工具，来区分人类产生的想法和AI产生的想法。"

他说TTCT测试是受保护的专有材料，因此ChatGPT无法通过访问互联网或公共数据库中的测试信息来"作弊"。

古兹克长期以来一直对创造力感兴趣。在马萨诸塞州帕尔默小镇长大上七年级时，他参加了一个天才学生项目。那次经历让他接触到了由先驱心理学家埃利斯·保罗·托兰斯开发的未来问题解决流程，托兰斯也是TTCT测试的创建者。古兹克说，那时他就爱上了头脑风暴以及它如何挖掘人类的想象力，并且他至今仍活跃在未来问题解决组织中——甚至在一次会议上认识了他的妻子。

古兹克和他的团队在过去一年试用ChatGPT后，决定测试其创造力。他说："我们一直在探索ChatGPT，注意到它做了一些我们意想不到的有趣事情。有些回答新颖且令人惊讶。那时我们决定对其进行测试，看看它到底有多大的创造力。"

古兹克说，TTCT测试使用的提示模仿了现实生活中的创造性任务。例如，你能想到产品的新用途或改进这个产品吗？

他说："假设它是一个篮球。尽可能多地想出篮球的用途。你可以把它投进篮筐，也可以用来展示。如果你强迫自己思考新用途，也许你可以把它切开来当花盆。或者用砖头，你可以建造东西，也可以用作镇纸。但也许你可以把它磨碎，重塑成全新的东西。"

古兹克原本预料ChatGPT会擅长产生大量想法（流畅性），因为这是生成式AI的专长。它在根据提示提出许多在评估者眼中具有相关性、实用性和价值的想法方面表现出色。

更让他惊讶的是，它在产生原创想法方面做得如此之好，而原创性是人类想象力的标志。测试评估者会得到针对某个提示的常见回答列表——这些几乎是预期会提交的答案。然而，AI在提出新颖回答方面进入了前百分之一。

古兹克说："在会议上，我们了解了一年前对GPT-3进行的前期研究。那时，ChatGPT在涉及原创性思维的任务上得分不如人类。现在随着更先进的GPT-4出现，它在所有人类回答中进入了前1%。"

随着AI的加速发展，他预计AI将成为未来商业世界的关键工具，以及区域和国家创新的重要新驱动力。

古兹克说："对我来说，创造力就是与众不同地做事。我喜欢的一个创业定义是，成为企业家就是要以不同的方式思考。因此，AI可能帮助我们应用创造性思维的世界来推动商业和创新过程，这对我来说非常迷人。"

他表示，密歇根大学商学院对教授AI知识并将其融入课程持开放态度。

古兹克说："我认为我们知道未来将以某种方式包含AI。我们必须谨慎对待其使用方式，并考虑必要的规则和法规。但企业已经在许多创造性任务中使用它了。就创业和区域创新而言，这正在改变游戏规则。"