传统诊断决策支持系统在疾病诊断方面的表现优于生成式人工智能

研究人员将其长期使用的诊断决策支持系统AI工具DXplain与现代大语言模型（如ChatGPT和Gemini）进行对比，发现DXplain表现略优。研究结果表明，将DXplain与大语言模型相结合可增强临床诊断能力，并推动两项技术的共同改进。

他们的新研究比较了ChatGPT、Gemini和DXplain在诊断患者病例方面的表现，显示DXplain表现得略好一些，但大型语言模型也表现良好。研究人员设想将DXplain与大型语言模型配对作为最佳前进方向，因为这将改善两个系统并增强它们的临床效力。研究结果发表在《JAMA Network Open》上。

"在人们对大型语言模型充满兴趣的同时，很容易忘记医学中最早成功应用的人工智能系统是像DXplain这样的专家系统，"共同作者、麻省总医院LCS的爱德华·霍夫尔医学博士说。

"这些系统可以增强和扩展临床医生的诊断，回忆起医生在紧急时刻可能忘记的信息，并且不受人类推理中常见缺陷的偏见。现在，我们认为将现有诊断系统的强大解释能力与大型语言模型的语言能力结合起来，将促成更好的自动化诊断决策支持和患者结果，"通讯作者、麻省总医院LCS的米切尔·费尔德曼医学博士说。

研究人员使用涵盖种族、民族、年龄和性别类别的36个患者病例测试了DXplain、ChatGPT和Gemini的诊断能力。对于每个病例，这些系统有机会在有无实验室数据的情况下提出潜在诊断。在有实验室数据的情况下，所有三个系统大多数时候都列出了正确诊断：DXplain为72%，ChatGPT为64%，Gemini为58%。在没有实验室数据的情况下，DXplain在56%的情况下列出了正确诊断，优于ChatGPT（42%）和Gemini（39%），尽管结果在统计上不显著。

研究人员观察到，DDSS和大型语言模型捕捉到了其他系统遗漏的某些疾病，这表明结合这些方法可能有前途。基于这些发现的初步工作表明，大型语言模型可用于从叙述性文本中提取临床发现，然后这些可以被输入到DDSS中——从而协同改善两个系统及其诊断结论。