传统诊断决策支持系统在疾病诊断方面优于生成式人工智能

研究人员将他们长期使用的诊断决策支持系统AI工具DXplain与ChatGPT、Gemini等当代大语言模型进行对比,发现DXplain表现略优。研究结果表明,将DXplain与大语言模型结合使用可提升临床诊断水平,并改进这两类技术。

他们的新研究比较了ChatGPT、Gemini和DXplain在诊断患者病例方面的表现,结果显示DXplain的表现略胜一筹,但大型语言模型(LLM)同样表现优异。研究人员设想将DXplain与LLM配对作为最佳发展路径,这将同时提升两个系统的效能并增强其临床应用价值。相关成果发表于《JAMA Network Open》。

"尽管当下大型语言模型备受关注,但人们容易忽略最早的医疗AI成功应用案例正是DXplain这类专家系统,"麻省总医院(MGH)临床信息学中心(LCS)的合著者Edward Hoffer医学博士表示。

"这些系统能强化和扩展临床医生的诊断能力,它们还能回忆起医生在紧急时刻可能遗忘的信息,且不受人类常见推理缺陷的影响。如今,我们认为将现有诊断系统的强大解释能力与大型语言模型的语言能力相结合,将实现更优质的自动化诊断决策支持和患者治疗效果,"通讯作者Mitchell Feldman医学博士补充道,他同样来自麻省总医院临床信息学中心。

研究人员使用涵盖不同种族、民族、年龄和性别的36个患者病例测试了DXplain、ChatGPT和Gemini的诊断能力。每种系统在有无实验室数据的情况下均有机会提出潜在诊断。在提供实验室数据时,三个系统多数情况都能列出正确诊断:DXplain准确率72%,ChatGPT为64%,Gemini为58%。未提供实验室数据时,DXplain正确诊断率达56%,优于ChatGPT(42%)和Gemini(39%),但该结果未达到统计学显著性差异。

研究人员观察到,诊断决策支持系统(DDSS)与大型语言模型能捕捉到彼此遗漏的特定疾病,这表明结合两种方法具有发展潜力。基于这些发现开展的初步研究表明,大型语言模型可用于从叙述性文本中提取临床发现,进而输入诊断决策支持系统——这种协同作用将双向提升两个系统及其诊断结论的准确性。