“可解释的”人工智能破解了粘性蛋白质的秘密语言

An AI tool has made a step forward in translating the language proteins use to dictate whether they form sticky clumps similar to those linked to Alzheimer's disease and around fifty other types of human disease. In a departure from typical "black-b

一种人工智能工具在翻译蛋白质所使用的语言方面迈出了一步，这些蛋白质用来决定它们是否形成类似于与阿尔茨海默病和大约50种其他人类疾病相关的粘性团块。与典型的“黑匣子”人工智能模型不同，新工具CANYA旨在能够解释其决策，揭示驱动或防止有害蛋白质折叠的特定化学模式。

这一发现发表在《科学进展》杂志上，得益于迄今为止创建的最大的蛋白质聚集数据集。这项研究为支持粘性蛋白质的分子机制提供了新的见解，粘性蛋白质与影响全球5亿人的疾病有关。

蛋白质结块或淀粉样蛋白聚集是一种破坏正常细胞功能的健康危害。当蛋白质中的某些斑块相互粘附时，蛋白质会生长成致密的纤维团，从而产生病理后果。

虽然这项研究对加快神经退行性疾病的研究工作有一些影响，但其更直接的影响将是生物技术。许多药物是蛋白质，它们经常受到不必要的结块的阻碍。

“蛋白质聚集是制药公司的一大难题，”该研究的合著者、加泰罗尼亚生物工程研究所（IBEC）的组长Benedetta Bolognesi博士说。

“如果一种治疗性蛋白质开始聚集，生产批次可能会失败，耗费时间和金钱。CANYA可以帮助指导设计不太可能粘在一起的抗体和酶，并减少过程中昂贵的挫折，”她补充道。

蛋白质团块是使用一种不太容易理解的语言形成的。蛋白质由二十种不同类型的氨基酸组成。与构成DNA语言的通常的A、C、G、T字母不同，蛋白质的语言有二十个不同的字母，它们的不同组合形成了“单词”或“基序”。

研究人员长期以来一直试图破译哪些基序组合会导致聚集，哪些基序可以使蛋白质无误折叠。将氨基酸视为神秘语言字母表的人工智能工具可以帮助识别负责的精确单词或基序，但饲养模型所需的蛋白质聚集数据的质量和数量历来很少或仅限于非常小的蛋白质片段。

这项研究通过进行大规模实验来应对这一挑战。该研究的作者从头开始创建了超过100000个完全随机的蛋白质片段，每个片段长20个氨基酸。在活酵母细胞中测试了每个合成片段结块的能力。如果一个特定的片段触发了团块的形成，酵母细胞就会以某种方式生长，研究人员可以通过测量来确定因果关系。

大约每五个蛋白质片段中就有一个（21936/100000）会引起结块，而其余的则不会。虽然之前的研究可能追踪了少数序列，但新的数据集捕获了更大的不同蛋白质变体目录，这些变体可能会导致淀粉样蛋白聚集。

该研究的第一作者、基因组调控中心（CRG）的博士后研究员Mike Thompson博士解释说：“我们创造了真正随机的蛋白质片段，包括许多自然界中没有发现的版本。进化只探索了所有可能蛋白质序列中的一小部分，而我们的方法帮助我们洞察更大的可能性星系，提供了大量数据点来帮助理解更一般的聚集行为规律。”。

与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯，每天或每周获取重要突破、创新和研究的最新进展。

实验产生的大量数据用于训练CANYA。研究人员决定使用“可解释的人工智能”的原则来创建它，使其决策过程对人类来说是透明和可理解的。这意味着要牺牲一点它的预测能力，这在“黑匣子”人工智能中通常更高。尽管如此，CANYA被证明比现有模型准确率高出约15%。

具体来说，CANYA是一种卷积注意力模型，是一种借鉴人工智能两个不同领域的混合工具。卷积模型与图像识别中使用的模型一样，可以扫描照片中的耳朵或鼻子等特征来识别人脸，但CANYA跳过蛋白质链来找到有意义的特征，如图案或“单词”。

语言翻译工具使用注意力AI模型来识别句子中的关键短语，然后再决定最佳翻译。研究人员采用了这项技术来帮助CANYA找出在整个蛋白质的宏伟计划中哪些基序最重要。

这两种方法共同帮助加拿大近距离观察当地主题，同时也发现了它们在更大范围内的重要性。研究人员不仅可以利用这些信息预测蛋白质链中的哪些基序会促进聚集、阻止聚集或介于两者之间，还可以了解原因。

例如，CANYA表明，小口袋的防水氨基酸更有可能引发结块，而一些基序如果靠近蛋白质序列的开始而不是结束，则对结块的影响更大。这些观察结果与研究人员在显微镜下观察到的已知淀粉样纤维的先前发现一致。

但CANYA也发现了驱动蛋白质聚集的新规则。例如，蛋白质的某些组成部分，即所谓的带电氨基酸，通常被认为可以防止结块。但事实证明，在其他特定构建块的背景下，它们实际上可以促进聚集。

在目前的形式下，CANYA主要用“是”或“否”来解释蛋白质聚集，即它作为一个所谓的“分类器”。研究人员接下来希望改进该系统，使其能够预测和比较聚合速度，而不仅仅是聚合可能性。

这可以帮助预测哪些蛋白质变体快速形成团块，哪些形成团块的速度较慢，这是神经退行性疾病中的一个重要因素，淀粉样蛋白形成的时间与它发生的事实一样重要。

“有1024种方法可以创建20个氨基酸长的蛋白质片段。到目前为止，我们只训练了10万个片段的人工智能。我们想通过制造更多更大的片段来改进它。这只是第一步，但我们的工作表明，解释蛋白质聚集的语言是可能的。这对我们理解人类疾病非常重要，也对指导合成生物学工作非常重要，”博洛内西博士总结道。

“该项目是将大规模数据生成与人工智能相结合如何加速研究的一个很好的例子。这也是一种非常经济高效的数据生成方法，”ICREA研究教授Ben Lehner说，他是基因组调控中心（CRG）和Wellcome Sanger研究所的共同通讯作者和组长。

“使用DNA合成和测序，我们可以在一个试管中进行数十万次实验，生成训练人工智能模型所需的数据。这是我们应用于生物学中许多难题的方法。目标是使生物学可预测和可编程，”他补充道。

这项研究是ICREA研究教授Ben Lehner在基因组调控中心（CRG）的实验室和加泰罗尼亚生物工程研究所（IBEC）的Benedetta Bolognesi实验室的联合合作成果。冷泉港实验室（CSHL）和Wellcome Sanger研究所的研究人员也参与了这项研究。p