问答:生命科学中的人工智能——为什么模型在实践中经常失败

Artificial intelligence (AI) based on machine learning offers opportunities for the life sciences. However, problems often arise in practice. One cause is data leakage, the illicit spillover of information from the training to the test data.

基于机器学习的人工智能(AI)为生命科学提供了机会。然而,在实践中经常出现问题。一个原因是数据泄漏,即信息从训练到测试数据的非法溢出

慕尼黑工业大学(TUM)、应用科学大学Weihenstephan Triesdorf(HSWT)和其他研究机构的研究人员现在在《自然方法》杂志上发表的一项新指南中倡导更多的跨学科合作。在这次采访中,生物信息学教授Dominik Grimm和系统生物学数据科学教授Markus List解释了为什么现在解决这个问题至关重要

为什么你认为有必要与来自德国联邦大学埃尔兰根分校、亥姆霍兹萨尔药物研究所和萨尔大学的研究人员一起发布这项指南

格林:这个领域有很多活动,这很好,因为许多问题已经无法用纯粹的人类分析能力来回答了。与此同时,研究结果与实际应用结果之间存在差异。结果往往不可重复。例如,当这些模型用于临床诊断时,这会带来重大风险

列表:许多出版物都提出了具有很高预测精度的模型。这会产生一种虚假的安全感,因为该模型最初似乎能够可靠地解决所需的任务。然而,我们往往无法理解模型是如何得出预测的

机器学习问题和隐藏的数据依赖关系可能会导致不切实际的高精度。后者只能通过机器学习和生命科学方面的专业知识来识别。因此,我们提倡不同学科之间进行更多的合作,以结合他们的能力。通过这种方式,他们可以识别由隐藏依赖关系引起的问题

你所说的隐藏依赖是什么意思

列表:通常,来自单一研究的数据用于开发模型。很少有人测试模型在实践中是否也适用于在不同位置收集的数据或其他测量设备。例如,想象一下,研究人员创建了一个描述慕尼黑500人微生物组的数据集。我们共享这些数据,并使用400个样本作为模型的训练数据。我们最初保留了100个样本,以衡量模型对看不见的数据的适用程度——这些是我们的测试数据

然后,该模型学习识别居住在慕尼黑的患者在分子水平上存在的模式。它对100个被保留的样本(测试数据)非常有效。然而,当应用于汉堡的人时,结果突然不同。一个原因可能是隐藏的依赖性,例如居住在慕尼黑的人的微生物组与汉堡的人群不同。

当模型用以后无法获得的信息进行训练时,也会出现问题。例如,如果你想让模型预测某人是否会患高血压,你可以使用高血压患者的临床数据作为训练数据。然后,该模型寻找高血压的指标,发现患者服用抗高血压药物。但是,如果您将其用于未确诊的高血压患者,您将不会在临床数据中看到此功能,因为该患者尚未服用药物

与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯,每天或每周获取重要突破、创新和研究的最新进展

所以部分训练数据最终会出现在测试数据中,但它们不应该出现在那里

格林:是的,没错。我们称之为数据泄漏,可以将其描述为信息从训练数据非法溢出到测试数据。在实际应用中,不相关或误导性的测量之间存在隐藏的相关性。我们的指导方针旨在提高人们对这一问题的认识,更重要的是,提高对数据和应用程序的理解。这样,可以及早识别隐藏的依赖关系,并在开发和训练新模型时避免数据泄漏

列表:最终,这是一个仔细考虑开发模型的应用程序的问题。培训时,您必须确保拥有特定应用程序的适当数据。然而,独立的数据往往无法用于测试。为了成功训练稳健的模型,它们的设计必须避免走捷径或引入偏见

你能简要解释一下你的意思吗

列表:通常,数据被训练为单方面表示某些方面。在前面的微生物组示例中,这一地理组成部分没有得到充分考虑。在实践中,我们经常遇到这样一个问题,即与那些知之甚少的疾病相比,经过充分研究的疾病在数据库中的代表性过高。这种偏差可能会导致模型做出错误的预测

如果这些问题得不到解决,会发生什么

Grimm:经过几十年的研究收集的数据存储在数据库中,可用于后续的研究项目。如果错误悄悄出现,它们会在随后的研究中永久存在。最终,这可能会影响医疗,在最坏的情况下,甚至危及患者安全

列表:随着我们收集更多数据,方法变得更加复杂,这个问题会加剧。使用简单的模型,仍然可以理解结果是如何产生的。对于高度复杂的神经网络,这最终变得不可能。我们必须打破黑匣子,批判性地检查可能的偏见,并测试模型的实际适用性。许多研究人员也在开发新的方法,使我们能够研究黑匣子并理解决策过程

Grimm:研究人员需要了解数据和依赖关系的复杂性,以及他们为算法提供了什么。他们还需要明确他们希望模型回答的问题。如果使用得当,模型可以帮助我们缩小搜索空间,找到解决方案的线索。现在,至关重要的是将模型的工作引向正确的方向,以实现这一目标