对于研究人员来说,使用高性能计算机可能有点吓人。了解要使用的最佳界面、如何使软件规模化以及使用庞大的数据集需要自己的专业知识
幸运的是,NCSA所做的不仅仅是部署和操作这些强大的系统。该中心是科学与工程应用支持(SEAS)团队的所在地,该团队帮助研究人员有效利用NCSA可用的硬件和软件资源
通过使用SEAS,研究人员可以获得安装Python包的帮助,学会为他们的项目选择最好的并行计算引擎,或者——得益于发表在《美国国家科学院院刊》上的突破性工作——学会成功部署人工智能模型。这篇论文的标题是“APACE:AlphaFold2和高级计算作为加速生物物理发现的服务”。
这篇PNAS研究论文由SEAS小组的高级研究程序员Roland Haas、美国能源部阿贡国家实验室翻译人工智能负责人、芝加哥大学CASE高级科学家Eliu Huerta和美国国家科学院研究生助理Parth Patel撰写,他们当时是伊利诺伊州生物物理学博士生。他们描述了一种新的计算框架,该框架简化并加快了使用人工智能工具和算法来理解三维蛋白质结构的过程
该框架还预测了蛋白质的构象多样性,这是一个重要的特性,因为蛋白质是可延展的结构,可以在不同的构象之间翻转以完成其工作
该团队开发了APACE,这是一种有效处理AlphaFold2的计算工具,AlphaFold2是一种用于在高性能计算系统上预测蛋白质结构的人工智能程序。他们在NCSA的德尔塔超级计算机上部署了APACE,以测量它在预测四种示例蛋白质结构方面的表现
使用分布在300个NVIDIA A100 GPU上的多达300个集成电路,他们发现APACE比现成的AlphaFold2实现快两个数量级
此外,同样的方法可以用于各种科学学科,并可以与机器人实验室联系起来,以自动化和加速科学发现。该团队后来在美国能源部科学办公室用户设施阿贡领导力计算设施复制了北极星超级计算机的工作
Huerta说:“如果基础人工智能模型能够被更广泛的科学界发现、获取并随时使用,那么它们就有可能改变科学实践。”。“该项目展示了如何创建和共享所需的科学数据基础设施,以真正实现尖端人工智能的民主化,并利用现代计算环境最大限度地扩大其科学影响力。”
生物医学研究人员研究蛋白质,以了解广泛的生物功能。蛋白质是氨基酸链,它们排列成三维结构决定了生物功能
了解蛋白质是如何形成的——这一过程通常被称为蛋白质折叠,氨基酸以能够执行特定功能的结构化链聚集在一起——对于理解正常的生物功能以及折叠错误如何导致严重疾病至关重要
预测蛋白质折叠是一项计算量极大的工作,因为一种典型的蛋白质可能有数百个氨基酸和数千个细胞,它们可以以不同的方式结合
研究蛋白质结构的常用方法有X射线晶体学和冷冻电镜,前者是一种确定晶体原子和分子结构的工具,后者涉及在液氮中快速冷冻分子,并用电子轰击它们,用特殊的相机捕捉它们的图像
AlphaFold和AlphaFold2表明,人工智能软件可以根据氨基酸序列准确快速地预测蛋白质结构,APACE的开发建立在这一突破的基础上
APACE优化了AlphaFold2,使其能够在高性能计算平台上大规模运行,并有效处理其多TB的蛋白质数据库。这项工作表明,大型人工智能模型可以与高性能计算的能力相结合,使科学家能够快速、准确、更高分辨率地研究多蛋白复合物并获得结果——所有这些因素都可以更全面地了解蛋白质结构,并启动可治疗多种疾病的新药的开发
哈斯说:“新药研究非常耗时,而且需要在实验室合成不同的候选化合物来测试其医疗效果。”APACE使药物研究人员能够大幅减少筛选潜在候选化合物所需的时间,从而专注于最有前景的物质。这样,可以测试更多的化合物,并减少开发新药的时间,例如针对特定病毒株的新药
APACE的一个关键功能是更好的数据管理,这是通过在超级计算机上托管AlphaFold2的数万亿字节模型和数据库来实现的,该框架的神经网络可以很容易地从中访问数据。其他改进包括CPU优化和GPU优化,以并行化GPU密集型神经网络蛋白质结构预测步骤
“使用人工智能模型的第一个问题是数据的存储,”Park说,他和Patel一样,在APACE工作完成时正在阿贡实习
“我们需要通过2.6 TB(相当于AlphaFold2数据库的大小)以及从序列到结构预测的计算。一些大学实验室可能能够做到这一点,但重要的是要扩大规模,以便世界各地的科学家都能使用它。”
Patel补充道,“这就是为什么HPC的利用率很重要,尤其是对人工智能模型来说。任何能够进入HPC系统的人都可以访问数据,也可以访问进行实际人工智能模型计算的计算能力。更不用说,速度有了巨大的提高。”广泛应用于不同的研究领域,包括生物物理学、化学以及药物设计和发现
他说:“APACE提供了原始AlphaFold2模型的所有功能,使研究人员能够利用超级计算机缩短解决方案的时间,并将该工具与自动驾驶实验室连接起来,以自动化和加速发现。”
Huerta表示,该团队将继续建立一个亚太地区用户社区,以最大限度地利用HPC平台提高人工智能模型的可用性。哈斯表示,球队现在专注于解决系统中剩余的瓶颈问题,以进一步提高速度。他还希望在更多的计算集群上提供APACE,以便更多的科学家能够利用它。
哈斯说:“我们还想探索使用我们开发的方法来加快Alphabold2和其他基础机器学习模型的速度,这些模型太复杂了,无法在常见的桌面工作站上轻松使用。”。“这一切都是为了让最好的工具尽可能容易使用。”
Journal information: Proceedings of the National Academy of Sciences
Provided by National Center for Supercomputing Applications
2024-09-15
2024-09-15
2024-09-15
2024-09-15
2024-09-15