在寻找新的更好的酶的过程中,人工智能走在了前列

Enzymes are crucial to life. They are nature's little catalysts. In the gut, they help us digest food. They can enhance perfumes or get laundry cleaner with less energy. Enzymes also make potent drugs to treat disease. Scientists naturally are eager to c

酶对生命至关重要。它们是大自然的小催化剂。在肠道中,它们帮助我们消化食物。它们可以增强香水或用更少的能量获得洗衣清洁剂。酶还可以制造治疗疾病的强效药物。科学家们自然渴望创造新的酶。他们想象他们做的一切,从从从天空中抽出温室气体到降解环境中的有害毒素

对新酶的古老探索变得容易多了。一个由生物工程师和合成生物学家组成的团队开发了一种计算工作流程,可以设计数千种新的酶,预测它们在现实世界中的行为,并在多种化学反应中测试它们的性能——这是一种在计算机上发生的工作流程。他们的研究结果发表在《自然通讯》杂志的一篇新论文中

斯坦福大学生物工程教授、这项新研究的资深作者Michael Jewett说:“我们开发了一种计算过程,使我们能够更快地设计酶,因为我们不必像现在这样使用活细胞来生产酶。”

“相反,我们使用机器学习来预测高活性的设计酶,这些酶是由计算机模拟的突变DNA序列设计而成的,而不是在实验室里手工创建的。我们可以在几天内而不是几周内,或者像通常的情况那样,几个月内进行这些实验。”

旧科学,新模型

历史上,致力于设计新酶的科学家必须从自然界已知的酶开始。然后,在实验室中使用真实的转基因细胞,他们迭代地改变酶,以诱导它们进行研究人员希望实现的所需化学反应

这些酶变体所需的DNA必须从第三方供应商处购买。然后,必须将DNA手动转移到细胞中以产生感兴趣的酶,然后必须对其进行纯化并在一系列化学反应中进行测试。Jewett说,有时可能需要数千次迭代,甚至数万或数十万次迭代,才能找到一种可以提供科学家想要实现的化学物质的酶

“我们现在可以在电脑上完成所有这些,”他补充道。“我们不必运行10000个化学反应来迭代地提高酶活性,我们可以使用机器学习模型来预测仍然表现良好的高活性变体。”

酶工程科学并不新鲜,只是机器学习在该领域的应用。Jewett和他的同事们称之为“定向进化”。他们缩短了自然本身多年来经历的过程,因为DNA偶然发生突变,产生了新的酶,有时会产生重要的结果。毕竟,酶只是由长串氨基酸组成的蛋白质。DNA指导弦的产生。改变DNA;改变酶

Jewett说:“正是蛋白质的结构——由分子中这些氨基酸的序列产生——导致了它们的功能。”。“定向进化是一个有着几十年历史的领域,它已经发展出突变氨基酸以改变蛋白质功能的能力。我们只是在使用机器学习和计算机加快这一过程。”

该团队工作流程的一个关键特征是能够在没有完整生物体的情况下在无细胞系统中合成和测试蛋白酶,这进一步加速了这一进程

着眼于未来

作为概念验证,Jewett及其同事使用他们的新工具以90%的收率合成了一种小分子药物,高于最初的10%的收率,并表明它可以并行构建多种专门的酶,以制造另外八种治疗药物。他现在正在寻找一个制药合作伙伴来进一步开发该模型

与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯,每天或每周获取重要突破、创新和研究的最新进展

更广泛地说,Jewett的团队有兴趣扩展他的机器学习模型,以指导许多不同类型的化学反应中的催化或酶功能。在这篇论文中,研究小组只研究了酰胺键的形成,这是一种普遍存在的化学反应,在从药品到食品的许多不同领域都很重要。但还有其他机会

“我们可以探索可持续发展和生物经济中的多种机会。你可以开始考虑降解环境中毒素的分子类别,提高富含蛋白质的食物的生物利用度,或者采用需要高压、昂贵成分或有毒反应的现有工艺,使其更快、更安全、更便宜,”Jewett说

Jewett及其同事的工作并非没有障碍,最明显的是缺乏数据。他说:“高质量、高数量的功能数据仍然是一个挑战。”。“我们都知道人工智能需要大量数据,但目前还没有。”Jewett说,在定向进化和生物催化的背景下,为进行这些化学反应生成大量数据在科学文献中并不常见。生成数据的过程太慢了

但是,Jewett指出,随着科学越来越多地使用机器学习模型来加速设计,这些数据需求只会增加。在这项研究中,Jewet最终能够评估约1000种产品和约10000种化学反应中的约3000种酶突变体,但他的数据需求要大几个数量级

“如果我想突变一种酶来测试数万种变体,”Jewett说,为规模提供了一个具体的例子,“我可能会在那里找到论文,但他们可能会报告10种变体的突变数据。不是数百种。不是数千种。不是数万种反应,而是10种。所以,我们在数据方面还有一段路要走,但我们会到达那里。这是第一步。p