A new software algorithm developed at Caltech enables researchers to easily search for viruses in RNA sequence data, enabling scientists to detect viruses in samples and study how they impact biological functions.
加州理工学院开发的一种新的软件算法使研究人员能够轻松地在RNA序列数据中搜索病毒,使科学家能够检测样本中的病毒并研究它们如何影响生物功能
地球上单个病毒的数量几乎是深不可测的:据估计,宇宙中每颗恒星都有1000万个病毒。病毒无处不在,即使它们不会引起疾病,关于它们如何影响我们的日常生活,还有许多未被探索的问题
例如,有理论认为,一些神经退行性疾病,如阿尔茨海默氏症和帕金森氏症,可能起源于病毒感染。新算法建立在一个名为kallisto的现有软件工具上,现在可以揭示这个以前看不见的病毒世界的运作方式
这项研究是在计算生物学、计算和数学科学布林教授Lior Pachter(BS'94)的实验室进行的。4月22日,一篇描述这项研究的论文发表在《自然生物技术》杂志上
“例如,当对人类肺部样本的RNA进行测序时,你捕获了所有的RNA——主要是人类的,但也包括感染人类细胞的任何病毒的RNA,”该研究的第一作者、前研究生Laura Luebbert(博士'24)说。“使用标准分析方法,通常会丢弃有关病毒存在的信息。然而,我们的工具允许研究人员保留和量化这些数据,即使是对于意外或新的病毒。”
现代转录组工具测量细胞中表达的基因,并产生了大量的序列数据。单细胞RNA测序等技术可以识别单个细胞中存在的转录组物质,使研究人员能够了解样本中不同类型细胞的内部运作。原则上,这些数据也为研究这些样本中存在的病毒提供了机会;新工具使这成为可能
kallisto是一个能够区分序列数据中病毒遗传物质的计算程序。导致常见传染病的绝大多数病毒是RNA病毒(使用RNA而不是DNA作为遗传物质的病毒),它们共享一个关键的蛋白质机制,称为RNA依赖性RNA聚合酶(RdRp)。通过寻找这种蛋白质的基因序列,kallisto可以以最小的计算成本识别出100000多种病毒Luebbert和她的团队设想该工具将在数据集中广泛使用,以监测新出现的疾病并研究我们周围广阔的病毒世界。
“该产品是一个软件工具,旨在对任何生物学家都友好,”Pachter说。“我们建立了一个名为PalmDB的数据库,该数据库最初由研究人员Robert C.Edgar和Artem Babaian开发,我们添加了自己新颖的算法思想。任何有序列数据的研究人员都可以运行kallisto,找出他们的样本中有什么病毒,以及它们存在于哪些细胞中。”