工程师开发创新的微生物组分析软件工具

Since the first microbial genome was sequenced in 1995, scientists have reconstructed the genomic makeup of hundreds of thousands of microorganisms and have even devised methods to take a census of bacterial communities on the skin, in the gut, or in soil

自1995年第一个微生物基因组测序以来，科学家们已经重建了数十万微生物的基因组组成，甚至设计了基于大量样本对皮肤、肠道、土壤、水和其他地方的细菌群落进行普查的方法，从而出现了一个相对较新的研究领域，称为宏基因组学

解析宏基因组数据可能是一项艰巨的任务，就像试图将几个巨大的拼图拼在一起一样。面对这一独特的计算挑战，莱斯大学图形人工智能（AI）专家Santiago Segarra和计算生物学家Todd Treangen合作，探索人工智能驱动的数据分析如何帮助开发新的工具来推动宏基因组学研究

两位科学家专注于两类数据，这两类数据使宏基因组分析特别具有挑战性&mdash；重复和结构变体&mdash；并开发了处理这些数据类型的工具，这些工具的性能优于当前的方法

重复序列是在单个生物体的基因组中和生物体群落中的多个基因组中重复出现的相同DNA序列

“来自多个生物体的宏基因组样本中的DNA可以用图形表示，”电气和计算机工程助理教授Segarra说。

这篇论文也可在arXiv预印本服务器上获得，发表在计算分子生物学研究年度国际会议第28届会议RECOMB2024上。该项目由Rice研究生兼研究助理Ali Azizpour领导。莱斯大学的博士校友Adwait Balaji也是这项研究的作者之一

重复序列之所以令人感兴趣，是因为它们在生物过程中发挥着重要作用，如细菌对环境变化的反应或微生物组与宿主生物的相互作用。重复可以发挥作用的现象的一个具体例子是抗生素耐药性

一般来说，追踪细菌基因组中重复序列的历史或动力学可以揭示微生物的适应或进化策略。更重要的是，重复序列有时实际上可能是伪装的病毒，或者噬菌体。根据希腊语中“吞噬”的意思，噬菌体有时被用来杀死细菌。计算机科学副教授Treangen说：“这些噬菌体实际上看起来像重复序列，所以你可以根据基因组中包含的重复序列来跟踪细菌-噬菌体的动态。”

“这可以为如何清除难以杀死的细菌提供线索，或者更清楚地了解这些病毒是如何与细菌群落相互作用的。”

以前，当使用基于图形的方法进行重复检测时，研究人员使用预定义的规范来查找图形数据中的内容。GraSSRep与这些现有方法的区别在于，它缺乏任何此类预定义的参数或参考，无法告知如何处理数据

Segarra说：“我们的方法学习如何更好地使用图结构来检测重复，而不是依赖于初始输入。”。“自我监督学习使该工具能够在没有任何基本事实的情况下进行自我训练，以确定什么是重复，什么不是重复。当你处理宏基因组样本时，你不需要知道其中有什么来分析它。”

Segarra和Treangen共同开发的另一种宏基因组分析方法也是如此；通过长阅读的共组装图检测微生物组中的无参考结构变体，或riaa。他们关于riaa的论文将在7月12日举行的国际计算生物学学会年会上发表；16在蒙特利尔

这篇论文的主要作者是Rice计算机科学博士校友Kristen Curry，她将加入Rayan Chikhi的实验室；也是该论文的合著者&mdash；在巴黎巴斯德研究所担任博士后科学家。该论文的一个版本可在bioRxiv预印本服务器上获得

虽然GraSSRep是为处理重复而设计的，但riaa处理结构变异，这是10个碱基对或更多的基因组改变，由于其在各种疾病、基因表达调控、进化动力学和促进种群内和物种间遗传多样性中的作用，与医学和分子生物学相关

Treangen说：“在分离的基因组中识别结构变异相对简单，但在没有明确参考基因组来帮助对数据进行分类的宏基因组中更难做到这一点。”

目前广泛使用的处理宏基因组数据的方法之一是通过宏基因组组装基因组或MAG

Segarra说：“这些新的或参考引导的组装器是非常成熟的工具，需要一个完整的操作管道，重复检测或结构变体的识别只是它们的一些功能。”

“我们正在研究的一件事是用我们的算法取代现有的算法，看看这如何提高这些广泛使用的宏基因组组装器的性能。”