First therapy chatbot trial shows AI can provide 'gold-standard' care

研究人员首次对AI心理治疗聊天机器人开展临床试验，新结果显示，确诊心理障碍的患者在八周内症状平均出现临床显著改善。用户通过手机应用使用名为Therabot的软件，并表示人机交互效果堪比真人心理医生。研究人员总结认为，尽管AI心理治疗亟需临床医生监督，但对于许多无法定期或立即获得专业治疗的人群，该技术具有提供实时支持的潜力。

参与研究的人员还报告称，他们能够信任名为Therabot的系统并与之沟通，其程度堪比与心理健康专业人员合作。

该试验招募了来自美国各地的106名被诊断为重度抑郁症、广泛性焦虑症或进食障碍的受试者。参与者通过智能手机应用程序与Therabot互动，输入对提示其感受问题的回应，或在需要倾诉时主动发起对话。

研究人员报告称，被诊断患有抑郁症的参与者症状平均减少了51%，情绪和整体健康状况获得具有临床意义的显著改善。患有广泛性焦虑症的参与者报告症状平均减轻31%，许多人从中度焦虑转为轻度焦虑，或从轻度焦虑降至低于临床诊断阈值。

在进食障碍风险人群中（传统上更难治疗），Therabot使用者对身体形象和体重的担忧平均减少19%，显著超过了同样参与试验的对照组。

研究人员总结道，虽然AI驱动的治疗仍亟需临床医生监督，但它有潜力为数百万无法定期或即时获得心理健康专业服务的人群提供实时支持。

"我们观察到的症状改善与传统门诊疗法的报告结果相当，表明这种AI辅助方法可能带来具有临床意义的益处，"该研究的通讯作者、达特茅斯大学盖泽尔医学院生物医学数据科学与精神病学副教授尼古拉斯·雅各布森表示。

"面对面护理无法被替代，但现有服务提供者远远不足，"雅各布森说。他指出，在美国，每位可用的服务提供者平均需面对1600名仅患有抑郁或焦虑的患者。

"我们希望生成式AI能为庞大数量的面对面护理系统外人群提供心理健康支持。我认为人际治疗和基于软件的治疗有协同工作的潜力，"雅各布森补充道，他同时担任达特茅斯技术与行为健康中心治疗研发与评估核心部门主任。

该研究的第一作者、达特茅斯大学精神病学助理教授迈克尔·海因茨表示，试验结果也强调了在安全有效应用生成式AI治疗前仍需完成的关键工作。

"尽管这些结果非常鼓舞人心，但没有任何生成式AI代理能在心理健康领域完全自主运作——因为这个领域可能遭遇极其广泛的高风险情景，"海因茨强调，他同时是新罕布什尔州黎巴嫩市达特茅斯-希区柯克医疗中心的执业精神科医生。"我们仍需更好地理解和量化在心理健康环境中使用生成式AI的相关风险。"

自2019年起，Therabot就在雅各布森位于达特茅斯大学的AI与心理健康实验室持续开发。该过程包括与达特茅斯大学及达特茅斯健康中心附属心理学家和精神科医生进行持续磋商。

海因茨指出，当用户通过应用程序发起对话时，Therabot会基于研究人员开发的原创训练集进行自然、开放式的文本对话，该训练集来源于当前循证的心理治疗和认知行为疗法最佳实践。

例如，若焦虑症患者告诉Therabot最近感到极度紧张和不堪重负，它可能回应："让我们退一步思考你为什么会有这种感觉。"如果Therabot在对话中检测到高风险内容（如自杀意念），将通过屏幕按钮提示用户拨打911或联系自杀预防/危机热线。

临床试验为随机选中使用Therabot的参与者提供了为期四周的无限制访问权限。研究人员还追踪了由104名患有相同诊断但无法使用Therabot的受试者组成的对照组。

近75%的Therabot组受试者在试验期间未接受药物或其他治疗。该应用程序通过询问用户状况，根据对话内容个性化调整问题和回应。研究人员评估对话以确保软件响应符合最佳治疗实践。

四周后，研究人员通过临床医师用于检测和监测各病症的标准问卷评估参与者的进展。在又四周后（期间参与者可主动与Therabot对话但不再接收提示），团队进行了二次评估。

雅各布森表示，八周后，所有使用Therabot的参与者症状均显著减轻，其程度超过了临床认可的统计学显著阈值。

雅各布森指出，这些差异代表患者日常生活中可能感受到的实质性真实改善。他表示，试验期间用户平均使用Therabot六小时，约相当于八次治疗会话。

"我们的结果与接受门诊黄金标准认知疗法患者的情况相当，"雅各布森说。"这意味着我们有望在更短时间内为人们提供等同于医疗系统中最优质的治疗方案。"

关键的是，研究发现参与者报告的"治疗联盟"程度与面对面治疗相当。治疗联盟指患者与其照护者之间的信任与合作水平，被视为治疗成功的关键要素。

雅各布森表示，这种联结的一个迹象是：用户不仅详细回应Therabot的提示，还经常主动发起对话。软件交互量在深夜等与不适感相关的时段也出现激增。

"我们没预料到人们几乎把软件当朋友对待。这表明他们确实与Therabot建立了关系，"雅各布森说。"我认为人们也愿意与机器人交谈，因为它不会评判他们。"

海因茨表示，Therabot试验表明生成式AI有潜力提高患者的参与度，更重要的是能促进持续使用。

"Therabot不受诊室限制，可伴随患者去任何地方。它能全天候应对日常生活中的挑战，并实时引导用户处理策略，"海因茨说。"但使AI如此高效的特性也带来风险——患者可以向它倾诉任何事，而它也可能给出任何回应。"

海因茨强调，这些系统的开发和临床测试需设立严格的安全、有效性及交互语气标准，并需要心理健康专家的密切监督和参与。

"本次试验突显：当患者表达自杀意念等紧急安全问题，或软件回应不符合最佳实践时，研究团队必须有能力立即干预，"他说。"值得庆幸的是，Therabot很少出现这种情况，但生成式AI始终存在这种风险，我们的研究团队已做好应对准备。"

雅各布森指出，在两年多前对Therabot早期版本的评估中，超过90%的回应符合治疗最佳实践。这使团队有信心推进临床试验。

"自ChatGPT发布以来，许多从业者涌入该领域。虽然创建表面光鲜的概念验证很容易，但其安全性和有效性尚未充分验证，"雅各布森强调。"这种情况需要勤勉监管，而提供这种监管正是我们在该领域的独特优势。"