通过跨学科的合作与交流,我们能够突破传统思维的边界,开拓新的研究领域。

——院长致词

首页 > 科学研究 > 动物植物

迈向分子世界的视频生成模型

本站发布时间:2025-02-25 12:42:35

随着生成式人工智能模型能力的增长,你可能已经看到它们如何将简单的文本提示转换为超现实的图像,甚至扩展的视频片段

最近,生成式人工智能在帮助化学家和生物学家探索蛋白质和DNA等静态分子方面显示出了潜力。像AlphaFold这样的模型可以预测分子结构以加速药物发现,例如,麻省理工学院辅助的“RFdiffusion”可以帮助设计新的蛋白质

然而,一个挑战是分子不断移动和抖动,这在构建新蛋白质和药物时对建模很重要。使用物理学(一种称为分子动力学的技术)在计算机上模拟这些运动可能非常昂贵,需要在超级计算机上花费数十亿个时间步

为了更有效地模拟这些行为,麻省理工学院计算机科学与人工智能实验室(CSAIL)和数学系的研究人员开发了一种从先前数据中学习的生成模型

该团队的系统名为MDGen,可以拍摄一帧3D分子,模拟接下来会发生什么,比如视频,连接单独的剧照,甚至填补缺失的帧。通过点击分子上的“播放按钮”,该工具可能有助于化学家设计新的分子,并密切研究他们治疗癌症和其他疾病的药物原型与它打算影响的分子结构的相互作用程度

该研究发表在arXiv预印本服务器上

合著者Bowen Jing SM'22表示,MDGen是一个早期的概念证明,但它表明了一个令人兴奋的新研究方向的开始。“早期,生成式人工智能模型产生了一些简单的视频,比如一个人眨眼或一只狗摇尾巴,”CSAIL的博士生Jing说

“快进几年,现在我们有了像Sora或Veo这样的惊人模型,它们可以在各种有趣的方面发挥作用。我们希望为分子世界灌输类似的愿景,其中动力学轨迹就是视频。例如,你可以给模型第一帧和第十帧,它将动画化中间的内容,或者它可以从分子视频中去除噪声并猜测隐藏的内容。”

研究人员说,MDGen代表了与以前的可比作品相比的范式转变,它能够实现更广泛的用例。以前的方法是“自回归”的,这意味着它们依赖于前一个静止帧来构建下一个,从第一帧开始创建视频序列

相比之下,MDGen与扩散并行生成帧。这意味着MDGen可用于连接端点处的帧,或者除了在初始帧上按下播放键外,还可以“上采样”低帧率轨迹

这项工作发表在去年12月举行的神经信息处理系统会议(NeurIPS)上的一篇论文中。去年夏天,它在国际机器学习会议的ML4LMS研讨会上因其潜在的商业影响而获奖

与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯,每天或每周获取重要突破、创新和研究的最新进展

在实验中,Jing和他的同事发现MDGen的模拟类似于直接运行物理模拟,同时产生的轨迹快10到100倍

该团队首先测试了他们的模型接收分子3D帧并生成下一个100纳秒的能力。他们的系统将这些世代的连续10纳秒块拼凑在一起,以达到这个持续时间。研究小组发现,MDGen能够与基线模型的准确性竞争,同时在大约一分钟内完成视频生成过程——这只是基线模型模拟相同动态所需三个小时的一小部分

当给定一纳秒序列的第一帧和最后一帧时,MDGen还对其间的步骤进行了建模。研究人员的系统在超过100000种不同的预测中表现出一定程度的真实性:它在短于100纳秒的片段上模拟了比基线更可能的分子轨迹。在这些测试中,MDGen还表明了对以前从未见过的肽进行概括的能力

MDGen的功能还包括在帧内模拟帧,对每纳秒之间的步骤进行“上采样”,以更充分地捕捉更快的分子现象。它甚至可以“绘制”分子的结构,恢复被删除的分子信息。这些特征最终可以被研究人员用来根据分子不同部分应该如何移动的规范来设计蛋白质

Jing和共同主要作者Hannes Stärk在研究蛋白质动力学时说,MDGen是更有效地产生分子动力学进展的早期标志。尽管如此,他们缺乏数据使这些模型在设计药物或分子时立即产生影响,以诱导化学家在靶结构中想要看到的运动

研究人员的目标是将MDGen从模拟分子扩展到预测蛋白质如何随时间变化。“目前,我们正在使用玩具系统,”Stärk说,他也是CSAIL的博士生

“为了增强MDGen对蛋白质建模的预测能力,我们需要建立在当前的架构和可用数据的基础上。我们还没有一个YouTube规模的存储库来存储这些类型的模拟,所以我们希望开发一种单独的机器学习方法,可以加快我们模型的数据收集过程。”

目前,MDGen在模拟肉眼看不见的分子变化方面提出了一条令人鼓舞的前进道路。化学家还可以利用这些模拟来深入研究癌症或结核病等疾病的药物原型的行为

麻省理工学院西蒙斯数学教授、CSAIL首席研究员、该论文的资深作者Bonnie Berger说:“从物理模拟中学习的机器学习方法代表了人工智能在科学领域的一个新兴前沿。”。“MDGen是一个多功能、多用途的建模框架,连接了这两个领域,我们很高兴能在这个方向上分享我们的早期模型。”

“对分子态之间的真实过渡路径进行采样是一个重大挑战,”资深作者Tommi Jaakkola说,他是麻省理工学院电气工程和计算机科学的Thomas Siebel教授以及数据、系统和社会研究所,也是CSAIL的首席研究员。“这项早期工作表明,我们可以通过将生成建模转变为完全模拟运行来开始应对这些挑战。”

生物信息学领域的研究人员已经对该系统模拟分子转化的能力表示欢迎

“MDGen将分子动力学模拟建模为结构嵌入的联合分布,捕捉离散时间步长之间的分子运动,”查尔姆斯理工大学副教授Simon Olsson说,他没有参与这项研究。“MDGen利用一个隐藏的学习目标,实现了诸如过渡路径采样、绘制类比以修复连接亚稳态阶段的轨迹等创新用例。”

More information: Bowen Jing et al, Generative Modeling of Molecular Dynamics Trajectories, arXiv (2024). DOI: 10.48550/arxiv.2409.17808

Journal information: Nature , arXiv

Provided by Massachusetts Institute of Technology

排行榜

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567

备案号:京ICP备2023036195号-1

地址:北京市丰台区南三环西路16号2号楼

地址:山东省济南市历城区唐冶绿地汇中心36号楼

电话: 400-635-0567