传统诊断决策支持系统在疾病诊断方面表现优于生成式人工智能

研究人员将其长期使用的诊断决策支持系统人工智能工具DXplain与现代大型语言模型（如ChatGPT和Gemini）进行比较，发现DXplain的表现略胜一筹。他们指出，研究结果表明将DXplain与大型语言模型相结合，可提升临床诊断水平并优化两项技术性能。

他们的新研究比较了ChatGPT、Gemini和DXplain在诊断患者病例方面的表现，结果显示DXplain表现略优，但大语言模型（LLM）也表现良好。研究者设想将DXplain与LLM配对作为最佳前进方向，因为这将改进两个系统并提升其临床效能。该结果发表于JAMA Network Open。

"在人们对大语言模型充满兴趣之际，很容易忘记医学领域首个成功应用的人工智能系统是像DXplain这样的专家系统，"麻省总医院（MGH）临床系统实验室（LCS）的合著者Edward Hoffer医学博士表示。

"这些系统能增强和扩展临床医生的诊断能力，回忆起医生在紧急时刻可能遗忘的信息，且不受人类推理常见缺陷的影响。我们认为，将现有诊断系统的强大解释能力与大语言模型的语言能力相结合，将实现更优的自动化诊断决策支持和患者预后，"通讯作者、同样来自MGH LCS的Mitchell Feldman医学博士表示。

研究者使用涵盖种族、民族、年龄和性别类别的36个患者病例测试了DXplain、ChatGPT和Gemini的诊断能力。针对每个病例，系统有机会在提供和不提供实验室数据的情况下提出可能的诊断。在提供实验室数据时，三个系统大多能列出正确诊断：DXplain为72%，ChatGPT为64%，Gemini为58%。未提供实验室数据时，DXplain的正确诊断率为56%，优于ChatGPT（42%）和Gemini（39%），但结果无统计学意义。

研究者观察到，诊断决策支持系统（DDSS）和LLM能识别出其他系统遗漏的特定疾病，这表明结合两种方法可能具有前景。基于这些发现的初步工作表明，LLM可用于从叙述性文本中提取临床发现，随后输入DDSS——这将协同改进两个系统及其诊断结论。