Nature Genetics | 基于突变注释网络的泛基因组压缩-尧图手机网站定制

研究论文● 期刊Nature Genetics(IF:29.0)● DOIhttps://doi.org/10.1038/s41588-025-02478-7● 原文链接:https://www.nature.com/articles/s41588-025-02478-7● 第一作者Sumit Walia, Harsh Motwani● 通讯作者Yatish Turakhia (yturakhiaucsd.edu)● 发表日期2026-01-12● 主要单位美国加利福尼亚大学圣地亚哥分校摘要Abstract泛基因组学是一个新兴领域它使用基因组集合而非单一参考基因组来减少偏倚并捕获种内多样性。然而现有的泛基因组数据格式面临扩展到数百万个基因组的挑战并且主要侧重于变异往往忽视了潜在的突变事件和进化关系。本研究引入了泛基因组突变注释网络PanMAN这是一种无损的泛基因组表示方法与现有的保留变异格式相比其文件大小压缩比达到3.5至1,391倍且通常在更大数据集上性能更优。除了压缩之外PanMAN通过编码跨基因组推断出的详细突变和进化历史增加了表示能力从而能够获得新的生物学见解。利用PanMAN我们从800万个公开可用的序列构建了一个全面的SARS-CoV-2泛基因组仅需366 MB的磁盘空间。我们还开发了名为panmanUtils的工具包支持常见分析并确保与现有软件的互操作性。PanMAN有望极大地提升泛基因组分析和数据共享的规模、速度、分辨率和范围。结果ResultsPanMAN数据结构概述PanMAN旨在提供一个基因组序列集合的无损编码并表示它们所共享的复杂系统发育和突变历史图1。在后续小节中我们将讨论PanMAN如何隐式地保存序列集合中的多重全基因组比对信息m-WGA以及基因组变异这些信息可以使用panmanUtils工具导出。从高层面上看PanMAN的数据结构包含一个或多个PanMAT单元每个PanMAT旨在编码通过垂直遗传从单个祖先序列衍生的序列。PanMAT使用具有根序列的系统发育树结构分支标注了突变信息使得树末端叶节点的序列可以通过从根序列沿循这些突变推导出来这是一种存储高效的方法由UShER引入称为进化压缩。为了处理插入缺失和结构重排PanMAT引入了一个受PanGraph启发的、无需参考序列的三级坐标系统图2a,b及方法部分。在顶层该系统使用代表同源或独特片段的区块每个区块根据其在伪根pseudoroot处区块线性排序中的位置分配唯一标识符图2a及方法部分。该坐标系统中的两个较低层级追踪区块内核苷酸的具体坐标同时处理小的插入缺失图2b及方法部分。此外PanMAN可以通过连接PanMAT内部和跨PanMAT节点的网络边来表示重组、水平基因转移等复杂遗传事件。网络边通过存储亲本序列中发生复杂突变并产生另一个PanMAT根节点的断点坐标来记录这些复杂突变图2c及方法部分。PanMAN数据结构也可以使用序列化库存储为文件方法部分和补充图1。我们在方法部分提供了关于PanMAN数据结构和文件格式的更详细说明。图1| 关于PanMAN与其他泛基因组数据格式表征能力的对比需特别说明的是突变指导致基因组序列发生变化的事件而变异则指群体中由此产生的遗传差异。图中橙色标记表示该格式具备部分表征能力。图2 |PanMAN数据结构概述a, PanMAT中顶层坐标系统的示意图。区块序列首先在多重序列比对MSA的帮助下线性化并存储在PanMAT的伪根处。b, PanMAT中中层和底层坐标系统的示意图。这些层级基于一个区块内所有序列与其共有序列consensus sequence在核苷酸水平上的MSA。c, PanMAN如何通过使用网络边将PanMAT泛化以存储复杂突变即重组和HGT的示意图。PanMAN为存储微生物泛基因组提供了优异的压缩效果我们首先评估了PanMAN中进化压缩方法的潜在优势。我们使用了来自六个不同微生物物种SARS-CoV-2、呼吸道合胞病毒RSV、人类免疫缺陷病毒HIV、结核分枝杆菌、大肠杆菌和肺炎克雷伯菌的序列数据并将文件大小与五种保留变异的泛基因组格式图形化片段组装GFA、VG、GBZ、PanGraph和tskit进行了比较这些格式提供无损序列编码图2及方法部分。我们选择的数据集涵盖了广泛的遗传多样性、基因组长度和序列集合大小。对于每个数据集我们使用一个定制的、基于简约原则的流程构建了PanMAN补充图2该流程始于由PanGraph推断的比对和系统发育方法部分。PanMAN显示出比现有保留变异的泛基因组格式持续更高的可压缩性产生了显著更大的压缩比具体如下相对于GFA为19.4-468倍相对于VG为6.1-147倍相对于GBZ为3.5-40倍相对于PanGraph为26.0-541倍相对于tskit为52.1-1,391倍图3a,b。不出所料进化压缩的收益对于SARS-CoV-2往往是最高的该数据集在集合中序列数量最多且遗传多样性最低如图3a所示的平均成对Mash距离所示。为了测试文件格式的可扩展性我们改变了集合中的序列数量发现压缩趋势保持一致图3b。也就是说PanMAN即使对于较小的集合也能提供更高的压缩比并且当添加更多序列时PanMAN与大多数其他格式之间的差距会扩大。此外包含800万个SARS-CoV-2序列的PanMAN仅使用366MB的磁盘空间相比其FASTA格式的多重序列比对MSA实现了3,032倍的压缩并且比AGC高出5.3倍Miniphy和所有保留变异的泛基因组格式构建工具在此规模下崩溃补充表1。我们的结果表明随着序列集合规模的增加PanMAN的可扩展性几乎与其他格式相当或更优。这些压缩结果非常显著因为PanMAN还具有更优越的代表性能力。PanMAN在性能上超越了所有采用GZIP压缩的变异保留型泛基因组文件格式包括PanGraph和GFA补充表1。它也与那些不明确表示序列间比对或变异、主要为实现相似基因组高压缩而设计的文件格式即MiniPhy、AGC、GZIP、ZIP、XZ、SAM、BAM、CRAM和spVCF具有竞争力补充表1。这些格式中的大多数仅用于数据存储和检索。值得注意的是除了MiniPhyPanMAN在所有数据集上的存储效率都优于所有格式。相对于MiniPhyPanMAN对于细菌基因组实现了显著更高的压缩率4.3-20倍而对于病毒基因组则压缩率较低0.5-0.7倍。这可能是因为在PanMAN中编码相对于完整序列的突变对于小得多的病毒基因组来说成本更高。然而MiniPhy和PanMAN之间对于病毒基因组的压缩差距也随着数据集规模的增大而缩小这表明PanMAN的可扩展性更好。PanMAN的磁盘压缩优势也扩展到主内存补充表5因为磁盘存储本质上是内存中数据结构使用Cap’n Proto的序列化版本并通过XZ获得了相对较小的额外压缩因子方法部分。我们的结果有力地证明了PanMAN可以作为大规模相关基因组集合的标准数据共享、分析和存储格式。图3 |在六个微生物数据集上评估的PanMAN和其他无损泛基因组格式的文件大小a, PanMAN文件格式相比其他无损泛基因组格式实现的压缩tskit在6个数据集中的4个上未能扩展。b, PanMAN文件格式的可扩展性——随着集合中基因组序列数量的增加PanMAN相比其他格式实现的压缩。标记上方的数字表示相对于PanMAN的文件大小。两个坐标轴均为对数刻度。PanMAN提升了泛基因组的代表性能力我们设计了PanMAN以表示一套丰富的、当前泛基因组格式缺乏的具有生物学意义的信息图1。PanMAN中的部分信息被显式存储例如突变、系统发育关系、注释和根序列而其他信息如祖先序列、多序列全基因组比对以及遗传变异则可便捷地推导得出。我们开发了一套算法来修改和从PanMAN中提取有用信息并将其打包在一个名为panmanUtils的软件工具中。图4概述了panmanUtils目前支持的不同功能。下文我们将具体阐述每类信息在PanMAN中的表征方式以及通过“panmanUtils”提取该信息的算法原理。系统发育PanMAN的核心是其对应的系统发育结构该结构由一个或多个通过边连接的树状单元PanMAT组成形成一个系统发育网络。使用panmanUtils系统发育网络的拓扑结构可以通过两种不同的方式导出1以单一网络形式输出为“扩展Newick”格式2输出为多个Newick文件每个文件对应一个PanMAT拓扑结构并附带一个描述导致不同PanMAT间网络连接的复杂突变信息的文件补充图3e。多重全基因组比对m-WGAPanMAT的坐标系统使得集合中所有序列包括推断的祖先序列的全基因组比对能够通过一次树遍历轻松提取图4及方法部分。通过panmanUtils可将PanMAN中每个PanMAT的全基因组多序列比对以UCSC多序列比对格式MAF的形式导出。具体而言MAF中的每个比对区块均对应PanMAT中推断出的一个同源区块如图4所示。观测到的序列和推断的祖先基因组PanMAN中任何组合的序列无论是内部的还是叶节点处观测到的都可以通过简单地从使用上述方法推导出的m-WGA中去除间隙来提取图4。基因组变异VCF或GFA由于PanMAN显式存储突变因此可以容易地推导出变异。panmanUtils的一个显著特点是能够以VCF文件的形式提取PanMAT中所有序列相对于任意参考序列的变异图4及方法部分。此外为了实现与其他格式的跨兼容性panmanUtils还支持提取代表泛基因组的GFA文件图4及方法部分。这使得从PanMAN提取的GFA能够通过利用现有的泛基因组工具在读段比对和变异检测应用中发挥作用补充图4。注释该工具包含一个功能允许为PanMAN的节点手动添加额外的元数据注释例如日期、地理位置或谱系名称这些信息在基因组流行病学等多个生物学应用领域具有重要价值图4及补充方法部分。此外该工具还整合了若干其他实用功能包括提取子网络、生成统计摘要、对PanMAT进行重定根处理以及翻译蛋白质编码序列等具体细节已在方法部分详细阐述。大多数工具功能通过多线程技术实现并行化且在运行时间和内存需求方面保持合理水平详见方法部分及附表2、3。图4 |panmanUtils中提供的不同功能概述从输入的PanMAN顶部开始各面板展示了可以使用panmanUtils执行的以下具有生物学相关性的操作及其相关的子命令i提供节点和网络级别的统计信息ii以FASTA格式提取叶节点或内部节点的原始序列iii以FASTA格式提取叶节点或内部序列的MSAiv提取PanMAN中单个PanMAT的所有序列相对于用户定义的参考序列本例中为S1在位置 [起始:结束] 之间的比对FASTA格式v基于提供的以制表符分隔值TSV格式存储的节点标识符列表从输入PanMAN中提取对应子网络的PanMANvi提取PanMAN中单个PanMAT的所有序列中存在的、相对于用户定义的参考序列本例中为S2的变异VCF格式vii将PanMAN中的任何PanMAT转换为代表泛基因组的GFA文件viii以MAF格式提取PanMAN中每个PanMAT的m-WGAix使用TSV格式文件中提供的自定义字符串例如谱系名称注释PanMAN中的任何节点x以根序列为参考将DNA突变注释翻译为氨基酸突变以及xi提取多个Newick文件每个文件对应一个PanMAT拓扑结构以及一个描述不同PanMAT之间导致网络连接的复杂突变如果存在的额外文件。PanMAN支持采用任意算法进行突变与进化推断由于同时存储系统发育和突变PanMAN有效地代表了祖先特征。在本研究至此阶段我们仅采用简约法进行祖先序列重建。在此PanMAN的表征策略可适用于任何推断系统发育关系和祖先序列的算法。为了证明PanMAN的普适性我们在panmanUtils中实现了一种基于似然性的ACR方法称为MPPA边缘后验概率近似。通过这种方法我们在树上为各种数据集推断出分支突变这些树是使用一个称为IQTree2的基于最大似然法的工具构建的方法部分。与使用Fitch算法获得的PanMAN相比基于MPPA的PanMAN文件大小大了2.4-7倍补充图5。这种文件体积的增长是可预见的因为对于任何给定的序列比对Fitch算法虽能保证在树分支上标注最少数量的突变但在重建祖先序列的准确性上可能低于基于似然法的方法。尽管文件体积增大基于MPPA的PanMAN在不同数据集上仍能提供相较于其他泛基因组格式1.2-245倍的压缩比补充图5。由于计算复杂性增加基于MPPA的PanMAN的生成时间也比基于Fitch的PanMAN长3-6倍。我们的实验表明各种推理方法在准确性、可压缩性和计算复杂性之间提供了不同的权衡因此PanMAN可作为未来研究中深入探索这些权衡关系的重要工具。PanMAN揭示了SARS-CoV-2进化与突变历史的精细全景泛基因组数据结构同时记录突变历史与进化谱系的能力有望在基因组流行病学、进化生物学及宏基因组学等多个领域产生重要应用。例如UShER工具包构建的SARS-CoV-2系统发育树在新冠疫情期间被广泛应用包括变异株命名、局部疫情溯源研究、突变适应性预测以及基于废水的流行病学监测等。然而其中一些研究也受到MAT无法记录插入缺失和复杂突变的负面影响。例如多项研究已确定插入缺失是定义许多SARS-CoV-2谱系的关键突变并发现它们与病原体适应性增强相关。此外MAT使用单树表示来描述SARS-CoV-2的进化是不准确的因为该病原体实际发生了可检测水平的基因重组事件。我们试图探索PanMAN是否能够解决上述UShER-MAT的局限性。我们首先使用panmanUtils为20,000个SARS-CoV-2序列生成了一个PanMAT这些序列涵盖了1,000个Pango谱系。为进行一致的比较我们使用了与UShER-MAT相同的树拓扑结构以及从MAFFT推导出的MSA方法部分并通过基于简约法的算法在PanMAT上标注突变信息我们还将UShER-MAT中的1,000个Pango谱系根节点注释转移到了它们在PanMAT中的对应位置。研究发现PanMAN能准确重建与UShER相似的核苷酸突变历史。图5a展示了PanMAN标注的替换、插入和缺失突变数量及其影响的碱基位点分布。UShER的MAT省略了插入和缺失indel它们发生的频率低于替换但影响的位点大约多四倍图5a。在替换突变方面UShER系统发育树与PanMAN具有高度一致性图5b(i)PanMAN恢复了超过99.7%的UShER-MAT替换。然而在参考基因组坐标上PanMAN记录的替换比UShER-MAT多约10%。这种差异主要是由于UShER使用基于参考序列的成对比对而PanMAN使用MSA方法部分。PanMAN在MSA位置上识别出了10,162个替换9.9%这些位置在参考序列武汉-Hu-1RefSeqNC_045512.2中没有字符而UShER-MAT由于其基于参考序列的系统无法表示这些替换。在比较从参考序列到Pango谱系根节点的替换时UShER-MAT和PanMAN之间也观察到高度一致性Jaccard相似性为0.968。我们构建的SARS-CoV-2 PanMAN能够详细表征插入缺失突变的进化过程。在全基因组范围内插入缺失突变的频率随长度增加而降低图5b(ii)。这一规律在刺突蛋白中同样存在其中长度为3的倍数的插入缺失明显更常见这表明与基因组其他部分相比刺突蛋白对移码突变存在更强的纯化选择压力图5b(iii)。超过12个碱基的插入缺失在刺突蛋白中极为罕见。为了验证插入缺失推断的准确性我们将我们的结果与先前一项关于关切变异株Omicron亚谱系BA.1和BA.2、Delta B.1.617.2、Gamma P.1和Alpha B.1.1.7谱系定义突变的研究进行了比较发现所有报告的插入缺失都在PanMAN中得到了正确注释图5c。在刺突蛋白内部S2亚基中插入缺失非常罕见图5b(iv)该亚基在病毒融合和进入宿主细胞中起着至关重要的作用。刺突蛋白插入缺失在S1亚基的N端结构域最为常见——这是刺突蛋白中遗传修饰最多的区域之一。这一观察结果与先前一项研究的发现一致因为N端结构域的插入缺失被认为是SARS-CoV-2免疫逃避和适应性进化的重要机制。为了证明PanMAN的可扩展性我们还使用一个定制流程生成了一个包含超过800万个SARS-CoV-2基因组的PanMAN方法部分并观察到了相似的模式补充图6推断出7,983,118个替换、242,461个插入、855,871个缺失和367个重组事件这些通过了所有质量控制过滤器方法部分。该PanMAN仅需366MB磁盘空间每个基因组序列少于380字节与AGC及其FASTA格式的MSA相比分别提供了5.3倍和3,032倍的压缩率。此外为准确表征重组现象我们使用RIVET流程推断UShER-MAT中的重组事件并使用panmanUtils基于重组事件将PanMAT拆分成多个相互连接的PanMAT形成最终的PanMAN图5d及方法部分。拆分过程中剩余的突变没有改变。最终的PanMAN文件大小与原始PanMAT大致相同但提供了更准确和全面的SARS-CoV-2进化视图图5d。几个在Pango命名法下指定的重组体例如XBB在PanMAN上得到了准确表示图5e。总体而言我们的分析为PanMAN能够提供不同物种进化与突变历史的精细全景这一能力提供了具有说服力的案例实证。图 5| 使用PanMAN探索20,000个序列的SARS-CoV-2突变和进化景观a, 说明了左推断出的突变数量和右推断出的点突变影响的碱基数量。b, PanMAN中推断的突变景观。(i) 推断的替换在SARS-CoV-2参考基因组坐标上的分布PanMAN与UShER-MAT对比(ii) 推断的插入缺失长度在SARS-CoV-2参考基因组坐标上的频率(iii) 刺突蛋白区域推断的插入缺失长度的频率以及(iv) 推断的插入缺失在刺突蛋白区域的分布。c, PanMAN准确推断出先前研究[43]报告的、定义不同关切变异株VOC谱系的插入缺失。d, PanMAN通过重组代表了SARS-CoV-2进化的全面视图。使用RIVET推断重组事件panmanUtils将单树PanMAN拆分成树网络。e, 显示了XBB的重组信息位点即重组节点匹配其中一个但不是两个亲本节点的位点。该图使用RIVET生成。讨论Discussion我们提出了一种新的数据表示方法——PanMAN它在存储进化相关的基因组序列集合方面提供了卓越的压缩效果并极大地提升了泛基因组的代表性能力。我们的工作为进一步增强PanMAN及其相关工具的可扩展性、准确性、普适性和易用性奠定了坚实的基础。尽管PanMAN是一种紧凑且可扩展的格式但由于其依赖于现有工具如PanGraph进行系统发育和多重全基因组比对的构建补充表4其构建过程计算量较大。在我们未来的工作中我们计划通过使用并行算法和GPU加速来支持更快地构建更大的PanMAN。除了可扩展性之外可视化是泛基因组分析的另一个重要方面。虽然图基因组有相关的可视化工具并且PanMAN可以使用panmanUtils转换为这些结构但图基因组在解释和分析上相当具有挑战性。这是PanMAN可能被证明有价值的另一个方面——我们早期使用Taxonium和Treenome Browser可视化UShER-MAT的工作未来可以很容易地适配到PanMAN。此外我们计划开发针对PanMAN更好优化的读段比对工具然而如本文所示PanMAN与现有的克服参考偏倚的泛基因组工具是兼容的。最后我们目前的PanMAN分析仅限于微生物数据集即病毒和原核生物基因组。虽然PanMAN中的进化压缩策略也可以扩展到更复杂的基因组例如真核物种的基因组但这将需要增加支持并进一步优化以处理多条染色体、多倍性和更高的重组率。应对这些挑战也将是我们未来工作的重点。尽管如此我们注意到当前的实现可以支持其他用例包括低重组的真核生物基因组区域例如线粒体、着丝粒或Y染色体数据集。PanMAN的准确性依赖于推断算法的准确性。PanMAN目前依赖于现有方法例如PanGraph和Fitch算法用于系统发育、比对和祖先特征重建。然而我们也证明了PanMAN具有通用性可以与任何基础的推断算法选择配合工作。这些领域是当前研究的重点PanMAN也可能作为一个有用的平台来支持这些研究。同样准确且可扩展的重组和水平基因转移推断方法也是活跃的研究领域并将受益于PanMAN进行定性分析。总的来说我们的工作有潜力改变泛基因组分析。这是因为PanMAN不仅高效而且还提供了一种独特的机制将多种具有生物学意义的信息——例如系统发育、突变历史、基因组变异和多重全基因组比对——统一在一个共同的格式中。这在流行病学、微生物学、宏基因组学、生态学和进化研究中具有深远的应用前景。作者简介Sumit Walia(第一作者)博士计算机工程。在CPU/GPU微架构、硬件加速和并行算法领域具备扎实基础。我曾设计用于计算基因组学的可扩展高性能系统优化现代处理器中的浮点运算流水线并开发用于深度神经网络的先进量化技术。个人主页https://sumit-walia.github.io/Harsh Motwani (共一作者)一名资深软件工程师现居美国加利福尼亚州旧金山。他目前任职于Databricks凭借在软件开发领域的专业能力推动技术创新。其核心专长涵盖软件工程、技术研究及团队领导力深耕于科技行业。个人主页https://sales.superagi.com/contact/harsh-motwaniYatish Turakhia(通讯作者)加州大学圣地亚哥分校电气与计算机工程系的助理教授同时在计算机科学与工程系、生物工程系以及生物信息学与系统生物学研究生项目兼任教职。研究主要聚焦于计算机体系结构与计算生物学的交叉领域。具体而言我的研究实验室致力于开发并行算法、软件及领域专用硬件加速器以推动生物学与医学领域更快速、更经济的创新进程。实验室还与加州大学圣地亚哥分校的机器集成计算与安全中心、微生物组创新中心以及基因组医学研究所保持着紧密的合作关系。个人主页https://turakhia.ucsd.edu/翻译韩维中国农科院油料所博士在读审核朱志豪广东医科大学基因组所联合博士后终审刘永鑫中国农科院基因组所研究员/博导排版荀佳妮中国农科院基因组所硕士在读宏基因组推荐本公众号现全面开放投稿希望文章作者讲出自己的科研故事分享论文的精华与亮点。投稿请联系小编微信号yongxinliu 或 meta-genomicsiMeta高引 fastp PhyloSuite ImageGP2 iNAP2 ggClusterNet2iMeta工具 SangerBox2 美吉2024 OmicStudio Wekemo OmicShareiMeta综述高脂饮食菌群发酵中药口腔菌群微塑料癌症宿主代谢10000扩增子EasyAmplicon 比较基因组JCVI 序列分析SeqKit2 维恩图EVenniMetaOmics高引猪微生物组 16S扩增子综述易扩增子(EasyAmplicon)系列教程微生物组入门 Biostar 微生物组宏基因组专业技能学术图表高分文章生信宝典不可或缺的人点击阅读原文

Nature Genetics | 基于突变注释网络的泛基因组压缩

相关新闻

今年后端这收入是认真的吗？

基于深度学习的花朵识别系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)

为什么jupyter画热力图，坐标轴上都是空值，其他数据都很正常，但是坐标轴上一直是空的，是数据的问题还是代码的问题，如何解决？

最新新闻

MTKClient终极指南：深度掌握联发科设备调试与修复技术

智能温控系统设计：DRV8213驱动风扇与PIC18F4585实现

3分钟免费开启三国杀网页版：无需下载的终极完整指南

Navicat无限试用终极指南：macOS用户必备的14天重置解决方案

ICM-42688-P与PIC18F47K42在运动检测与工业监测中的应用

深度学习训练核心：计算图与反向传播机制详解

日新闻

Nginx防御TLS重协商攻击实战：从原理到配置与监控

华为防火墙双通道远程管理实战：Web与SSH配置详解

AD74413R与PIC18F65K40的高精度工业数据采集方案

周新闻

月新闻