26亿年前的进化算法相变可能引发了真核细胞的出现

An international collaboration between four scientists from Mainz, Valencia, Madrid, and Zurich has published new research in the Proceedings of the National Academy of Sciences, shedding light on the most significant increase in complexity in the history

来自美因茨、巴伦西亚、马德里和苏黎世的四位科学家之间的一项国际合作在《美国国家科学院院刊》上发表了一项新研究,揭示了地球上生命进化史上复杂性最显著的增加:真核细胞的起源

虽然内共生理论被广泛接受,但自古菌和细菌融合以来已经过去了数十亿年,导致在真核细胞出现之前,系统发育树中缺乏进化中间体。这是我们知识中的一个缺口,被称为生物学核心的黑洞

“这项新研究是理论和观测方法的结合,定量了解生命的遗传结构是如何转变的,以允许复杂性的增加,”美因茨约翰内斯古腾堡大学(JGU)的代表Enrique M.Muro博士在该项目中表示

蛋白质和蛋白质编码基因的长度增加

PNAS的文章表明,蛋白质长度及其相应基因的分布在整个生命树中遵循对数正态分布。为此,分析了9913种不同的蛋白质组和33627个基因组。对数正态分布通常是乘法过程的结果

根据奥卡姆剃刀原理,研究人员将基因长度分布的进化建模为乘法随机过程。事实上,他们模拟了所有遗传算子结合序列长度的行为

从LUCA开始,即假设的最后一个普遍的共同祖先,细菌、古菌和真核生物这三个生命领域都起源于LUCA,研究人员从理论和观测上发现,不同物种的平均基因长度在进化过程中呈指数级进化。此外,他们发现了整个生命树中基因生长的缩放不变机制,其中方差直接取决于平均蛋白质长度

通过代表33627个基因组中捕获的所有物种,该团队能够通过观察验证这些预测,此外,还表明平均基因长度是生物体复杂性的一个非常好的替代指标。马德里理工大学的Bartolo Luque博士在纯粹的定量生物学练习中补充道:“通过了解一个物种中蛋白质编码基因的平均长度,我们可以计算出该物种内基因长度的整体分布。”

当表示不同物种中平均蛋白质长度与其相应基因长度的进化时,可以观察到它们在原核生物中同时进化,因为它们的基因中几乎没有非编码序列。然而,一旦平均基因长度达到1500个核苷酸,蛋白质就会与基因生长的乘法过程脱钩,在真核细胞开始后,平均蛋白质长度稳定在约500个氨基酸的明确阈值,标志着真核细胞的出现

从那时起,与蛋白质不同,由于存在非编码序列,平均基因长度继续增加,就像在原核生物中一样

算法相变

然后,一项临界现象分析得出结论,在磁性材料物理学中研究得很好的相变发生在1500个核苷酸的临界基因长度处。这标志着真核生物的起源,并将生命的进化分为两个不同的阶段:编码阶段(prokarya)和非编码阶段(真核生物)

与超过100000名依赖Phys.org获取日常见解的订阅者一起探索科学、技术和太空的最新进展。注册我们的免费时事通讯,每天或每周获取重要突破、创新和研究的最新进展

此外,还观察到这些转变的特征现象,例如临界减速,即系统的动力学被困在临界点周围的许多亚稳态中。瓦伦西亚大学的Fernando Ballesteros博士说:“这在早期原生生物和真菌中得到了证实。”

此外,苏黎世大学的Jordi Bascompte教授补充道:“相变是基于算法的。”。在编码阶段,在接近LUCA的情况下,使用短蛋白质,增加蛋白质及其相应基因的长度在计算上很简单。然而,随着蛋白质长度的增加,寻找更长的蛋白质变得不可行

这种紧张是由基因以与以前相同的速度生长而蛋白质不能连续但突然地通过将非编码序列掺入基因来解决的

通过这项创新,搜索新蛋白质的算法迅速降低了其计算复杂性,通过剪接体和核变得非线性,将转录和剪接与翻译分开。这发生在相变的临界点,这项研究可以追溯到26亿年前

这项研究不仅回答了基本问题,而且是跨学科的,结合了计算生物学、进化生物学和物理学。美因茨大学生物与分子进化研究所的Muro博士强调:“它有可能引起许多学科的广泛关注,并为其他团体探索不同的研究途径奠定基础,如能源或信息理论。”

真核细胞是地球上生命进化史上复杂性最显著的增加,它作为一种相变出现,并开启了通往其他主要转变的道路,如多细胞性、性和社交性,这些转变塑造了我们今天所知的地球上的生命