生信大神李恒综述:T2T时代的基因组组装

发布时间 2023-12-10 17:08:07作者: 生物信息与育种


生信领域大神李恒今年发在预印本上的一篇综述:Genome assembly in the telomere-to-telomere era,小编总结下要点。

影响组装的基因组特性

决定基因组组装难易程度的主要因素不是基因组大小,而是它的重复结构。重复序列可以通过比其更长的reads来解析。但是,还有更长的重复区域。例如,人类 1 号染色体的着丝粒周围区域含有 20 Mb 的重复序列比当前测序技术产生的读长要长得多。但我们仍然可以通过准确的长读长来组装这个区域。尽管它和其他此类区域由相似的重复拷贝组成,但它们随着时间的推移积累了突变,并且很少在10 kb以上共享相同的重复序列。给定长的无错误读长,我们可以区分不同的重复拷贝并成功组装它们。Reads从来都不是完全没有错误的,但是当reads错误率足够低并且测序错误足够独立时,我们可以纠正大多数错误并实现高质量的组装。

重复序列大致可分为三类:间隔重复序列(interspersed repeats)、串联重复序列(tandem repeats)和片段重复序列(segmental duplications)。

  • 间隔重复序列大多是分散在基因组中的转座元件。它们几乎都比现代长读长读短,因此不再对组装构成重大挑战。
  • 染色体臂上的大多数串联重复序列比长读长序列短,因此也易于组装。然而,卫星重复序列(satellite repeats)是一种通常富含着丝粒的超长串联重复序列,特别难以组装,因为整个卫星阵列不能被长读长跨越。
  • 片段重复是指基因组中重复的非常长的DNA片段,通常比长reads甚至超长reads要长。它们中的许多是聚集在一起的,可以串联。虽然古老的固定区段重复很容易解决,因为它们自其共同祖先以来通过突变积累了差异,但长多态性重复具有挑战性。
  • 核糖体 DNA (rDNA) 可以组织为由高度相似的拷贝组成的长串联阵列。长 rDNA 阵列是最难组装的区域之一。

长读长和长范围(long-range)测序技术

长读长技术可生成长度通常为 ≥10 kb 的连续读序列。

2019 年,PacBio 推出了长度为 10–20 kb 且错误率低于 0.5% 的高保真 (HiFi) 读长。这些有效地取代了 PacBio 错误率为 >10% 的旧连续长读长 (CLR)。

目前面向大众市场的 ONT 产品的准确率大致在 90-95% 左右,长度为 ≥100 kb。最新的 ONT v14 化学反应可以使用最新的 Dorado 碱基调用器生成准确率为 98-99% 的读数。ONT正在积极开发双链测序技术,该技术可对DNA片段的两条链进行测序,在准确性上接近 PacBio HiFi,并且可以更长。

即使是超长读长,也很少跨越超过几百Kb。为了可靠地获得染色体长支架和相位,需要长范围数据,使用最广泛的是Hi-C。Pore-C 与 Hi-C 类似,但使用 ONT 测序。Strand-seq 是另一种特别擅长染色体分组和重叠群定向的技术,但更昂贵,并且无法在市场上买到。亲本序列数据或三重数据(trio data)对于全基因组定相非常强大,也可以被视为一种长范围数据。

近T2T基因组组装

对于纯合基因组,近T2T组装的最可靠解决方案同时使用 PacBio HiFi reads 和 ONT 超长读长。一般先用 HiFi reads 来构建一个初始组装图,再用超长填补间隙。

近T2T基因组组装策略。a,组装单倍体或纯合基因组。在纠正准确长读长的测序错误后,将无差错读数组装成初始组装图,其中粗箭头表示序列,细线连接序列。然后,超长读数将贯穿装配图,以解决纠结的子图并修补小的装配间隙。Hi-C 等长距离数据有助于跨越剩余的差距。b, 组装杂合二倍体基因组。在纠错过程中保留了单倍型之间的杂合差异。组装图通常由一连串的“气泡”组成,代表单倍型之间的多态性。超长读长和长距离数据可用于确定单倍型的相位以及解析缠结。

组装杂合二倍体基因组遵循类似的策略。对于具有长纯合区域的基因组,单独使用HiFi和超长的组合可能无法使整个染色体分相。在这种情况下,建议使用三重数据来提供整个基因组的准确分相。当无法获得亲本样本时,可能使用Hi-C代替。Hi-C 仅提供重叠群之间的相对相位信息,不如三重数据强大,尤其是在纠结的子图中,但Hi-C仍然是可靠支架染色体的关键数据类型。将 HiFi 与 trio、Hi-C 或 Strand-seq 等长范围数据相结合,可以产生一对单倍型分辨组装,此组装具有相当的连续性。它还保留了相位,并且可以进一步用 Hi-C 搭建成分相染色体。

二倍体样品的分相组装类型。a,组装图可以进一步加工成不同类型。b,主/备用组装。初级组装代表一个完整的单倍体基因组,偶尔会发生相位切换。备用程序集是碎片化的。c,一对双组装。每个双组装都类似于一个主组装。d, 一对染色体相位组装体。来自同一单倍体染色体的重叠物被划分为同一组装。e,一对带有支架的染色体阶段组装体。重叠物通过组装间隙连接成染色体。

核心组装算法

现代长读长组装基本都是基于图论,即overlap graph或de Bruijn graph。在此图中,顶点表示一个序列,一条边表示从读取中推断出的可能连接。理想情况下,组装图将所有信息保留在读取中,没有冗余。然而,由于重复和倍性,它通常是非线性的。

基于overlap graphs组装。a, 简单重叠图组装。查找所有读取之间的重叠,识别可从其他重叠推断的传递重叠(虚线箭头),删除传递重叠,并将顶点与一条传入边和一个传出边合并以获得最终单位。b, 图形清理。未校正的排序错误(黄色六边形)可能会导致应修剪掉的尖端(读数 3)。重复(红色区域)可能会导致重复副本之间出现重叠,这些重叠可以通过图形清理进行剪切。c,组装一个比reads长的串联复制品。不允许不精确的重叠(红色箭头)会将该区域解析为一个简单的图形。d, 组装二倍体样品。允许不精确的重叠会导致杂合差异的丧失,并使两种单倍型崩溃。仅使用精确重叠可消除单倍型之间的比对,从而保留杂合等位基因及其局部相位。e,删除包含的reads(黄线)会导致红色单倍型上的组装间隙。

基于De Bruijn graphs组装。a, 以节点(顶点)为中心的不同k-mer长度的字符串的de Bruijn图。b,多路复用DBG改进了组装。使用 6-mers 作为节点的压缩 de Bruijn 图 DBGv(6) 被分割成两个单位。DBGv(5) 有一个连接的分量, 但图形有一个周期。多重 de Bruijn 图 DBGv(5,6) 在概念上是由 DBGv(5) 和 DBGv(6) 中的组合单元集构建的,使用 6-mers 作为节点。c,但是,多重 DBG 并不能解决所有情况。在这种情况下,多重DBG仍然是碎片化的,而基于重叠的方法(需要≥4bp重叠)组装成单个重叠群(如b)。

评估序列组装

基本指标
组装大小、contig长度综合、N50等。对于二倍体常染色体组装要有一对分相组装且具有相似大小,一对不平衡的常染色体组装可能表明分相不完整,可能要手动参数调整。性染色体很可能具有不同的大小。物种内的其他倍性变异也可能发生,例如由于体细胞染色体丢失或减少。

评估基因完整性
BUSCO是首选。minimap2 软件包中的“asmgene”工具是 BUSCO 的替代方案,还可以解决存在高质量参考基因组时的低完整性问题。

基于 K-mer 的评估
假设 k-mer 的计数与其读长计数成正比, k-mer 在读长中具有高频率但组装中不存在,表明序列缺失。KAT 是一个强大的工具,它利用这些简单的观察结果来评估组装。

使用k-mers来估计重叠群序列的基本准确度是一种常见的做法,通常以Phred scake作为QV(Quality Value)进行测量。目前有两种实现,Merqury 和 yak 。

基于比对的评估
理想情况下,当我们将序列读长与其组装比对时,我们期望在每个重叠群位置都能均匀覆盖。在较长的区域上覆盖率过低或过高都表明存在潜在的组装错误。我们还希望重叠群能够得到基础级别的读取的良好支持。Flagger、Asset和 Inspector是基于读长到程序集比对的面向用户的评估工具。

对于具有近乎完美的基因组,可以此作为基本事实,以评估使用较少数据类型或较低读取覆盖率生成的自动化程序集。QUAST 是很好的工具,这种基于比对的方法对于开发人员调整组装算法非常宝贵,但不适用于新物种,或者当“真实”组装和评估组装来自不同的菌株或不同样品时。

李恒的观点

在讨论部分,李恒指出了overlap-based和DBG两种算法组装、HiC数据以及组装软件的不足,他很看好ONT最新的simplex reads,兼顾超长与准确性,可能会大大简化高质量基因组组装。

我们能否用当前数据自动组装从端粒到端粒的所有染色体?李恒认为是不行的。他认为,过去几年的大部分进步都是由于数据质量的提高而取得的,而当前的软件从可用的输入数据中提取了大部分信息。仅靠算法改进可能无法可靠地解决所有组装gap。

我们期待在测序技术方面不断取得新的进展,以便在没有人为干预的情况下真正完成基因组。需要注意的是,一个完整的组装只是为下游生物学发现设定了一个开始。虽然基因组组装进展迅速,但基因组比对和注释工具却远远落后。我们希望在未来看到这些工具的持续发展,以实现(近乎)完整组装的全部功能。

更多信息请关注: