如何利用人工智能进行发现——不让科学误入歧途

Over the past decade, AI has permeated nearly every corner of science: Machine learning models have been used to predict protein structures, estimate the fraction of the Amazon rainforest that has been lost to deforestation and even classify faraway galax

在过去的十年里，人工智能几乎渗透到了科学的每一个角落：机器学习模型已经被用来预测蛋白质结构，估计因森林砍伐而失去的亚马逊雨林的比例，并对表现为类外行星的银河系进行分类

但尽管AI可以用来加速科学发现——帮助研究人员预测可能很难在世界上进行研究的现象——但它只能帮助科学家聊天机器人有时会产生“幻觉”，或者说，机器学习模型有时会出现误导或错误的结果

在今天（11月9日，星期四）发表在《科学》杂志上的一篇论文中，加州大学伯克利分校的研究人员介绍了安全使用机器学习模型中获得的预测来测试科学假设的统计技术

这项被称为预测功率参考（PPI）的技术，使用世界上最少量的真实数据来校正特定科学问题文本中大型通用模型的输出，例如预测蛋白质结构的AlphaFold

“这些模型是一般性的：他们可以回答一些问题，但我们不知道哪些问题对美国人来说是好的，哪些问题对他们来说是坏的——如果你天真地使用它们，在不知道自己在哪里的情况下，你可能会得到糟糕的答案，”作者MichaelJordan说，他是加州大学伯克利分校电气工程与计算机科学与统计专业的杰出教授“使用PPI，您可以使用该模型，但可以纠正可能的错误，即使您不知道输出中这些错误的性质。”

隐性偏见的风险

当学生进行实验时，他们不仅仅是在寻找一个答案——他们想要得到一系列可能的答案这是通过计算“置信区间”得出的，在最简单的情况下，可以通过多次重复实验并查看结果来找到

在大多数科学研究中，置信区间通常指一个整体或组合的统计学，而不是单个数据点不幸的是，机器学习系统只关注单个数据点，并没有为客户提供他们关心的不确定性评估例如，AlphaFold预测了单个蛋白质的结构，但它并没有提供关于该结构的确定通知，也没有提供关于蛋白质一般性质的置信区间的方法

如果我们修改了计算经典置信区间的统计数据，科学家们可能会从AlphaFol中提取所有预测，而忽略了这些预测不是数据的事实这种方法的问题是，机器学习系统会让很多人感到不安，这可能会扭曲结果事实上，这些网络是从它们被训练的数据中产生的，这些数据通常是存在的科学研究，可能没有像目前的研究那样集中

“事实上，在科学问题上，我们经常对已知和未知之间的现象感兴趣，”乔丹说“事实上，没有太多来自边缘的东西，这使得生成的AI模型更有可能‘产生幻觉’，生产出更逼真的东西。”

计算有效置信区间

PPI允许客户将AlphaFold模型中的预测纳入其中，而不需要对模型是如何构建或训练数据进行任何假设目前，PPI需要少量的数据偏差，与正在研究的特定假设相关，并与相应数据的机器学习预测相结合通过将这两个证据来源放在一起，PPI可以形成有效的证据确认间隔

例如，研究小组应用了PPI技术的算法，这些算法可以使用卫星图像精确定位亚马逊地区的造林区域当在森林中的各个区域进行测试时，这些模型总体上是准确的；然而，当这些评估结合起来估计整个亚马逊地区的森林砍伐时，置信区间变得更高这可能是因为模型在创建之前努力识别某些新的模式

使用PPI，可以使用人类标记的森林砍伐区域的总数来校正置信区间的偏差

该团队还展示了如何将该技术应用于其他研究的多样性，包括蛋白质折叠、半乳糖分类、基因表达水平、浮游生物计数以及健康保险和私人健康保险之间的关系等问题

乔丹说：“这种方法确实有很多问题可以解决。”“我们认为PPI是现代数据密集型、模型密集型和协作科学的迫切需要的组成部分。”

其他联合作者包括NastasiosNAngelopoulos、StephenBates、ClaraFannjiang和加州大学伯克利分校的TijanaZrnic这项研究得到了美国国家科学研究办公室（N00014-21-1-2840）和国家科学基金会的支持