蛋白质是维持细胞运转的主力,我们的细胞中有成千上万种蛋白质,每种蛋白质都执行着特定的功能。研究人员早就知道蛋白质的结构决定了它能做什么。最近,研究人员开始意识到蛋白质的定位对其功能也至关重要
细胞充满了有助于组织其许多成员的隔间。除了装饰在生物学教科书页面上的众所周知的细胞器外,这些空间还包括各种动态的、无膜的隔间,这些隔间将某些分子聚集在一起以执行共享功能
因此,了解给定蛋白质的定位以及与谁共同定位,有助于更好地理解该蛋白质及其在健康或患病细胞中的作用,但研究人员缺乏一种系统的方法来预测这些信息
与此同时,蛋白质结构的研究已经进行了半个多世纪,最终出现了人工智能(AI)工具AlphaFold,它可以根据蛋白质的氨基酸编码预测蛋白质结构,氨基酸编码是蛋白质内部折叠形成结构的线性构建块串。AlphaFold和类似的模型已成为研究中广泛使用的工具
蛋白质还含有不折叠成固定结构的氨基酸区域,但对于帮助蛋白质加入细胞中的动态隔室非常重要。怀特海研究所成员Richard Young及其同事想知道这些区域的代码是否可以用于预测蛋白质定位,就像其他区域用于预测结构一样
其他研究人员发现了一些编码蛋白质定位的蛋白质序列,一些研究人员已经开始开发蛋白质定位的预测模型。然而,研究人员不知道是否可以根据蛋白质的序列预测蛋白质在任何动态室中的定位,也没有与AlphaFold类似的工具来预测定位
现在,Young,也是麻省理工学院(MIT)的生物学教授,Young实验室博士后Henry Kilgore,麻省理工大学计算机科学与人工智能实验室工程学院人工智能与健康杰出教授Regina Barzilay及其同事建立了这样一个模型,他们称之为ProtGPS
在2月6日发表在《科学》杂志上的一篇论文中,跨学科团队与第一作者Kilgore和Barzilay实验室研究生Itamar Chinn、Peter Mikhael和Ilan Mitnikov一起首次展示了他们的模型
研究人员表明,ProtGPS可以预测蛋白质将定位在12种已知类型的隔室中的哪一种,以及与疾病相关的突变是否会改变这种定位。此外,研究小组开发了一种生成算法,可以设计新的蛋白质来定位特定的隔室
“我希望这是迈向一个强大平台的第一步,使研究蛋白质的人能够进行研究,”Young说,“它有助于我们了解人类如何发展成复杂的生物体,突变如何破坏这些自然过程,以及如何产生治疗假说和设计药物来治疗细胞功能障碍。”研究人员还通过细胞实验测试验证了该模型的许多预测 Barzilay说:“能够从计算设计一直到在实验室尝试这些东西,我真的很兴奋。”。“在人工智能领域有很多令人兴奋的论文,但其中99.9%从未在真实系统中进行过测试。由于我们与Young实验室的合作,我们能够测试并真正了解我们的算法有多好。”与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯,每天或每周获取重要突破、创新和研究的最新进展
开发模型研究人员在两批具有已知定位的蛋白质上训练和测试了ProtGPS。他们发现,它可以高精度地正确预测蛋白质的最终位置。研究人员还测试了ProtGPS根据蛋白质内与疾病相关的突变预测蛋白质定位变化的能力
根据关联研究,许多突变——基因及其相应蛋白质序列的变化——被发现会导致疾病,但突变导致疾病症状的方式仍然未知
弄清楚突变如何导致疾病的机制非常重要,因为这样研究人员就可以开发出修复该机制的疗法,预防或治疗疾病。Young及其同事怀疑,许多与疾病相关的突变可能通过改变蛋白质定位导致疾病。例如,突变可能会使蛋白质无法加入含有重要伴侣的隔室
他们通过给ProtGPS喂食20多万种具有疾病相关突变的蛋白质来测试这一假设,然后要求它预测这些突变蛋白质的定位,并测量其对给定蛋白质从正常到突变版本的预测变化程度。预测的大幅变化表明本地化可能会发生变化
研究人员发现,在许多情况下,与疾病相关的突变似乎会改变蛋白质的定位。他们在细胞中测试了20个样本,使用荧光来比较正常蛋白质和突变版本在细胞中的最终位置。实验证实了ProtGPS的预测
总之,这些发现支持了研究人员的怀疑,即错误定位可能是一种被低估的疾病机制,并证明了ProtGPS作为理解疾病和确定新治疗途径的工具的价值
Mitnikov说:“细胞是一个如此复杂的系统,有如此多的组件和复杂的相互作用网络。”。“非常有趣的是,通过这种方法,我们可以扰乱系统,看到结果,从而推动细胞机制的发现,甚至在此基础上开发治疗方法。”研究人员希望其他人开始使用ProtGPS,就像他们使用AlphaFold等预测结构模型一样,推进蛋白质功能、功能障碍和疾病方面的各种项目
研究人员对他们的预测模型的可能用途感到兴奋,但他们也希望他们的模型能够超越预测现有蛋白质的定位,并允许他们设计全新的蛋白质。目标是让该模型组成全新的氨基酸序列,当在细胞中形成时,这些序列将定位到所需的位置生成一种能够真正完成某一功能的新型蛋白质——在这种情况下,定位到特定细胞室的功能——是极其困难的。为了提高模型的成功率,研究人员将他们的算法限制为只设计自然界中发现的蛋白质
出于逻辑原因,这是药物设计中常用的方法;大自然已经花了数十亿年的时间来弄清楚哪些蛋白质序列工作良好,哪些不工作
由于与Young实验室的合作,机器学习团队能够测试他们的蛋白质生成器是否有效。该模型取得了良好的效果。在一轮实验中,它产生了十种旨在定位于核仁的蛋白质。当研究人员在细胞中测试这些蛋白质时,他们发现其中四种蛋白质强烈地定位在核仁上,其他蛋白质也可能对该位置有轻微的偏见
Mikhael说:“我们实验室之间的合作对我们所有人来说都是如此富有成效。”。“我们已经学会了如何说彼此的语言,在我们的案例中,我们学到了很多关于细胞如何工作的知识,通过有机会对我们的模型进行实验测试,我们已经能够弄清楚我们需要做什么来真正使模型工作,然后使其更好地工作。”能够以这种方式产生功能性蛋白质可以提高研究人员开发疗法的能力。例如,如果一种药物必须与定位在某个隔间内的靶标相互作用,那么研究人员可以使用这个模型来设计一种也定位在那里的药物。这应该会使药物更有效并减少副作用,因为药物将花费更多的时间与靶标接触,而与其他分子相互作用的时间更少,从而导致脱靶效应
机器学习团队成员对利用他们从这次合作中学到的知识来设计具有定位以外其他功能的新型蛋白质的前景充满热情,这将扩大治疗设计和其他应用的可能性
Chinn说:“许多论文表明,他们可以设计一种可以在细胞中表达的蛋白质,但并不意味着这种蛋白质具有特定的功能。”。“我们实际上有一个功能性的蛋白质设计,与其他生成模型相比,成功率相对较高。这对我们来说真的很令人兴奋,也是我们想要建立的基础。”所有参与的研究人员都认为ProtGPS是一个令人兴奋的开始。他们预计,他们的工具将用于更多地了解定位在蛋白质功能中的作用和疾病中的定位错误。此外,他们有兴趣扩展模型的定位预测,以包括更多类型的隔室,测试更多的治疗假设,并为治疗或其他应用设计功能越来越强大的蛋白质
Kilgore说:“现在我们知道这种用于定位的蛋白质代码是存在的,机器学习模型可以理解该代码,甚至可以使用其逻辑创建功能性蛋白质,这为许多潜在的研究和应用打开了大门。” More information: Henry R. Kilgore et al, Protein codes promote selective subcellular compartmentalization, Science (2025). DOI: 10.1126/science.adq2634Journal information: Science
Provided by Whitehead Institute for Biomedical Research
2025-02-26
2025-02-26
2025-02-26
2025-02-26
2025-02-26