美国EvolutionaryScale和Arc Institute的一组人工智能研究人员、生物学家和进化专家设计并构建了一个能够生成合成新蛋白质代码的人工智能模型。在他们发表在《科学》杂志上的论文中,该小组描述了开发他们新的人工智能模型(他们称之为ESM3)的因素,以及他们如何使用它来合成一种以前未知的明亮荧光蛋白
先前的研究表明,合成蛋白质可以为天然蛋白质的结构和功能提供独特的见解。迄今为止,大多数此类蛋白质都是自然界中发现的蛋白质的拷贝。在这项新研究中,研究人员使用人工智能模型来模拟一种从未自然存在的蛋白质的进化过程
生成人工蛋白质为更好地理解蛋白质的性质及其用途以及开发新的应用提供了新的研究途径的可能性。研究小组使用现有蛋白质的数据作为产生新蛋白质的基础
ESM3是一种多模态生成语言模型,这意味着,与它的聊天机器人表亲一样,它在大量数据上训练时学习事物的本质。在这种情况下,多模态生成语言模型在由31.5亿个蛋白质序列、2.36亿个蛋白质结构和5.39亿个蛋白质注释生成的7710亿个标记上进行了训练
研究人员表示,这就像给模型提供了5亿年的进化知识,使其能够从基本代码开始,随着虚拟时间的推移进化成现代虚拟蛋白质。然后使用标准蛋白质合成技术将虚拟蛋白质转化为现实世界的人造蛋白质。结果是一种具有与其他已知蛋白质不同的遗传序列的蛋白质
研究小组特别要求他们的模型产生一种新的绿色荧光蛋白——其他在紫外线下发出荧光的蛋白质通常被用作标记。该团队将这种新蛋白质命名为esmGFP。他们建议,他们的模型和其他类似的模型可用于创造新的蛋白质,用于医学、环境研究和各种其他应用
More information: Thomas Hayes et al, Simulating 500 million years of evolution with a language model, Science (2025). DOI: 10.1126/science.ads0018Journal information: Science
2025-06-10
2025-06-09
2025-06-09
2025-06-09
2025-06-09