自我监督学习方法可以测试2000万个或更多的细胞

Our bodies are made up of around 75 billion cells. But what function does each individual cell perform and how greatly do a healthy person's cells differ from those of someone with a disease? To draw conclusions, enormous quantities of data must be analy

我们的身体由大约750亿个细胞组成。但是，每个单独的细胞执行什么功能，健康人的细胞与患有疾病的人的细胞有多大不同？为了得出结论，必须对大量数据进行分析和解释

为此，应用了机器学习方法。慕尼黑工业大学（TUM）和Helmholtz Munich的研究人员现在已经测试了自我监督学习作为测试2000万个或更多细胞的有前景的方法

近年来，研究人员在单细胞技术方面取得了长足的进步。这使得可以在单个细胞的基础上研究组织，并简单地确定单个细胞类型的各种功能。例如，该分析可用于与健康细胞进行比较，以了解吸烟、肺癌或COVID感染如何改变肺部的单个细胞结构

与此同时，分析产生了越来越多的数据。研究人员打算应用机器学习方法来支持重新解释现有数据集的过程，从模式中得出结论性陈述，并将结果应用于其他领域

自监督学习作为一种新方法

Fabian Theis担任TUM生物系统数学建模主席。与他的团队一起，他研究了自监督学习是否比其他方法更适合分析大量数据。这种形式的机器学习适用于未标记的数据。无需提前提供分类样本数据

这意味着没有必要提前将数据预先分配给某些组。大量的未标记数据可供使用，并允许对大量数据进行稳健表示

自监督学习基于两种方法。在掩码学习中——顾名思义——一部分输入数据被掩码，模型被训练为能够重建缺失的元素。此外，研究人员还应用了对比学习，其中模型学习组合相似数据并分离不同数据

该团队使用这两种自我监督学习方法测试了2000多万个单个细胞，并将其与经典学习方法的结果进行了比较。在评估不同方法时，研究人员专注于预测细胞类型和重建基因表达等任务。他们的发现发表在《自然机器智能》上

虚拟细胞的发展前景

研究结果表明，自监督学习可以提高性能，特别是在转移任务中，即在分析由较大辅助数据集的见解提供信息的较小数据集时。此外，零样本单元预测的结果——换句话说，在没有预先训练的情况下执行的任务——也很有希望

掩蔽学习和对比学习之间的比较表明，掩蔽学习更适合具有大型单细胞数据集的应用

研究人员正在利用这些数据开发虚拟细胞。这些是反映不同数据集中细胞多样性的综合计算机模型。例如，这些模型有望分析疾病引起的细胞变化

这项研究为如何更有效地训练和进一步优化这些模型提供了宝贵的见解