人工智能破解植物中的新基因调控密码,并对新测序的基因组进行准确预测

Genome sequencing technology provides thousands of new plant genomes annually. In agriculture, researchers merge this genomic information with observational data (measuring various plant traits) to identify correlations between genetic variants and crop t

基因组测序技术每年提供数千个新的植物基因组。在农业领域,研究人员将这些基因组信息与观测数据(测量各种植物性状)相结合,以确定遗传变异与作物性状之间的相关性,如种子数量、对真菌感染的抵抗力、果实颜色或风味

然而,在分子水平上对遗传变异如何影响基因活性的了解相当有限。这种知识差距阻碍了通过组合具有已知功能的特定基因变体来提高质量和减少负面环境影响的“智能作物”的育种

来自IPK莱布尼茨研究所和Forschungszentrum Jü;利希(FZ)在应对这一挑战方面取得了重大突破。在Jedrzej Jakub Szymanski博士的领导下,国际研究团队在来自各种植物物种的基因组信息的庞大数据集上训练了可解释的深度学习模型,这是人工智能算法的一个子集

IPK研究小组“网络分析与建模”的负责人解释道:“这些模型不仅能够从序列中准确预测基因活动,还能够精确定位哪些序列部分有助于这些预测。”研究人员应用的人工智能技术类似于计算机视觉中使用的技术,包括识别图像中的面部特征和推断情绪

与以前基于统计富集的方法相比,在这里,研究人员将序列特征的识别与mRNA拷贝数的确定结合在一个数学模型的框架内,该数学模型已经过训练,考虑了关于基因模型结构和序列同源性的生物信息,从而实现了基因进化

“我们真的对其有效性感到惊讶。在几天的训练中,我们重新发现了许多已知的调控序列,并发现大约50%的识别特征是全新的。这些模型在未经训练的植物物种中得到了很好的推广,这使它们对分析新测序的基因组很有价值,”Szymanski博士说

“我们用长读测序数据专门证明了它们在不同番茄品种中的应用。我们精确定位了特定的调控序列变异,这些变异解释了观察到的基因活性差异,从而解释了形状、颜色和稳健性的变化。这比传统使用的单核苷酸多态性统计关联有了显著的改进。”

该团队公开分享了他们的模型,并为他们的使用提供了网络界面。“有趣的是,我们在降低模型性能方面付出了很多努力。为了避免由于人工智能找到捷径而导致的过于乐观的结果,我需要深入研究基因调控生物学,以消除任何潜在的偏见,减少数据泄露和过拟合,”首席机器学习研究员、该研究的第一作者Fritz Forbang Peleke说,该研究发表在《自然通讯》杂志上

Simon Zumkeller博士,FZ Jü;lich说:“通过所提供的分析,我们可以调查和比较植物中的基因调控,并推断其进化。对于实际应用,该方法也提供了一个新的基础。我们正在研究已知和新测序的植物基因组、各种组织和不同环境条件下的基因调控元件的常规鉴定。”