In biology, the binding of cellular proteins to molecules called ligands produces myriad functions essential for life, including cell signaling and enzymatic action. In biotechnology and medicine, the ability of researchers to alter proteins to refine con
在生物学中,细胞蛋白质与称为配体的分子的结合产生了对生命至关重要的无数功能,包括细胞信号传导和酶作用。在生物技术和医学领域,研究人员改变蛋白质以改善对结合亲和力和特异性的控制的能力可以创造出具有减少副作用、高灵敏度诊断工具、高效生物催化、靶向药物递送系统和可持续生物修复解决方案的量身定制的治疗方法
这种蛋白质重新设计的各种方法都有缺点。传统方法包括耗时的试错工作,新兴计算设计领域的许多模型需要有关蛋白质结构和配体结合口袋的大量信息
由阿拉巴马大学伯明翰分校的Truong Son Hy博士领导的研究人员提供了一种他们称之为ProteinReDiff的简化方法,该方法使用人工智能来加速配体结合蛋白的重新设计
ProteinReDiff代表基于扩散模型的蛋白质重新设计,它结合了受基于计算机的蛋白质折叠的AlphaFold2架构的表示学习模块启发的关键改进。这些模块允许ProteinReDiff框架捕获复杂的蛋白质-配体相互作用,提高结合亲和力预测的保真度,并能够更精确地重新设计配体结合蛋白
这项工作发表在《结构动力学》杂志上,作为人工智能和结构科学专题的一部分
“我们的框架能够设计高亲和力配体结合蛋白,而不依赖于详细的结构信息,”UAB计算机科学系助理教授Hy说。“我们仅依赖初始蛋白质序列和配体SMILES字符串。”SMILES,即简化分子输入行输入系统,是一种长期以来仅使用计算机可读ASCII字符对分子结构进行规范的系统
Hy说:“我们方法的一个关键特征是盲对接,它可以预测重新设计的蛋白质如何与其配体相互作用,而不需要预定义的结合位点信息。”。“这种简化的方法大大减少了对详细结构数据的依赖,从而扩大了基于序列的蛋白质-配体相互作用探索的范围。”研究人员,包括越南胡志明市FPT软件人工智能中心的Viet Thanh Duy Nguyen和芝加哥大学的Nhan D.Nguyen,在许多已知的蛋白质结构及其结合配体上训练了人工智能框架ProteinReDiff。然后,他们能够通过随机掩蔽氨基酸和等效去噪扩散模型来重新设计选定的蛋白质-配体对,以捕捉配体和蛋白质复合物构象的联合分布
Hy及其同事将ProteinReDiff与其他八种基于输入和输出特征的计算蛋白质设计模型进行了比较,并改进了所选配体-蛋白质对中蛋白质的配体结合关于输入特征,八个比较模型中有六个依赖于蛋白质结构信息作为输入之一;只有ProteinReDiff和DPL模型仅依赖于蛋白质序列和配体SMILES输入。在输出方面,只有ProteinReDiff产生了新的蛋白质设计,包括蛋白质序列、蛋白质结构和配体结构
在性能方面,对ProteinReDiff和其他八种蛋白质设计模型生产的选定蛋白质配体对的重新设计蛋白质进行了配体结合亲和力、氨基酸序列多样性和结构保存的比较。与其他模型相比,ProteinReDiff在配体结合亲和力方面有了显著改善
Hy说:“我们的模型在仅基于初始蛋白质序列和配体SMILES串优化配体结合亲和力方面表现出色,绕过了对详细结构数据的需要。”。“这些发现为蛋白质配体复合物建模开辟了新的可能性,表明ProteinReDiff在各种生物技术和制药应用中具有巨大的潜力。”