单细胞多组学技术的指数级进展导致了大量多样的多组学数据集的积累。然而,单细胞蛋白质组学和转录组学(或表观基因组学)数据的整合对现有方法提出了重大挑战。一些基于转换器的模型,如Geneformer,已经显著改变了单细胞转录组分析的范式。然而,这些方法对计算资源提出了很大的要求
为了应对这些挑战,中国科学院武汉植物园的研究人员开发了一种基于转换器的方法,称为scmFormer,使用多任务转换器集成大规模单细胞蛋白质组学和转录组学数据。题为“scmFormer通过多任务转换器整合大规模单细胞蛋白质组学和转录组学数据”的研究发表在《高级科学》上
研究人员对该方法进行了全面评估并进行了案例研究,结果表明,scmFormer在有限的计算机资源下,在细胞类型和更精细的细胞水平上,在协调大规模单细胞组学和蛋白质组学数据集方面表现出了非凡的熟练度
此外,scmFormer具有集成多个单细胞配对多模式数据集的能力,从而带来降低高成本和提高生物洞察力的双重好处
此外,scmFormer显示出消除不同组学模式之间技术差异的卓越能力,同时保留数据中固有的潜在生物信息,涵盖细胞类型和实验条件
scmFormer用于整合两个新冠肺炎数据集(148万个细胞)的应用进一步证明了scmFormer在普通笔记本电脑上处理大型数据集的独特优势
Journal information: Advanced Science
Provided by Chinese Academy of Sciences
2024-09-15
2024-09-15
2024-09-15
2024-09-15
2024-09-15