Basic Information:

Title: Long-read error correction: a survey and qualitative comparison (长读错误纠正：一项调查和定性比较)
Authors: Pierre Morisse, Thierry Lecroq, Arnaud Lefebvre
Affiliation: Normandie Université, UNIROUEN, INSA Rouen, LITIS, 76000 Rouen, France (法国鲁昂诺曼底大学)
Keywords: long-read sequencing, error correction, hybrid correction, self-correction
URLs: ResearchGate, [GitHub: None]

论文简要 :

这篇论文调查和定性比较了长读错误纠正的方法，介绍了长读测序技术的优势和问题，并提供了一份详尽的长读错误纠正工具的综述和性能评估。

背景信息:

论文背景: 近年来，第三代测序技术（如PacBio和ONT）的出现使得长读测序成为可能，但长读的高错误率成为了一个挑战。
过去方案: 传统的第二代测序技术（如Illumina）具有较低的错误率，但读长较短。为了纠正长读的错误，研究人员开发了一系列针对长读的纠正工具。
论文的Motivation: 由于长读的高错误率和错误类型的特殊性，需要对长读进行有效的错误纠正。本论文旨在调查和比较不同的长读错误纠正方法，并评估这些方法在不同数据集上的性能，以提供研究人员选择合适工具的参考。

方法:

a. 理论背景:
- 本文讨论了第三代测序技术的出现，如Paciﬁc Biosciences (PacBio)和Oxford Nanopore Technologies (ONT)，这些技术可以对长读取进行测序。长读取具有在基因组学中解决各种问题的潜力，但与短读取相比，它们也更容易出错。因此，需要高效的错误校正方法。本文提供了对长读取错误校正工具的全面调查，包括混合校正（使用短读取）和自校正（仅使用长读取）两种方法。作者还强调了长读取特征（如测序深度、长度、错误率和测序技术）对错误校正工具性能的影响。
b. 技术路线:
- 本文描述了不同的长读取错误校正方法。其中一种方法是短读取对齐，即将短读取对齐到长读取以计算高质量的一致序列。PBcR方法使用BLASR或Bowtie等对齐器计算短读取和长读取之间的对齐。只有整个长度都对齐的短读取才被考虑进行校正。短读取与它们最有可能属于的重复序列相关联，并从覆盖每个长读取的短读取子集中生成一致序列。
- LSC方法压缩短读取和长读取中的同源多聚区域以便于对齐。将短读取对齐到连接的长读取上，并通过计算短读取的局部一致序列来校正每个长读取。还对压缩的同源多聚区域进行校正。LSC生成修剪后的校正长读取。
- Proovread使用SHRiMP2计算对齐并过滤掉质量较低的对齐。使用短读取的碱基填充的矩阵的每一列进行多数表决计算一致序列。Proovread还提出了一种迭代的对齐和校正过程，以减少时间和内存消耗。它生成修剪和分割版本的校正长读取。
- Nanocorr使用BLAST计算对齐，并选择覆盖每个长读取的短读取对齐的最佳子集。使用DAG和PBDAGCon模块计算一致序列。Nanocorr生成未修剪的校正长读取。
- LSCplus是LSC方法的修改版，它压缩并替换短读取和长读取中的同源多聚区域为重复核苷酸的单个出现。在LSCplus中，与LSC相比，用于检索同源多聚体的原始大小的索引发生了改变。LSCplus中的对齐步骤直接使用Bowtie2将短读取对齐到长读取，而不是连接长读取。通过使用与之相关联的短读取子集，通过多数表决计算一致序列来校正每个长读取。与LSC不同，LSCplus在解压缩之前确定最频繁的核苷酸。LSCplus的校正长读取可以是修剪和未修剪的。长读取中的未覆盖位置在不进行修改的情况下解压缩，并连接到一致序列的末尾。
- CoLoRMap使用BWA-MEM计算对齐，并为每个长读取使用与之对齐的短读取子集构建对齐图。该图是有向且加权的，每个顶点表示短读取对长读取的对齐。如果短读取与长读取共享前缀/后缀重叠且最多有一个错误，则定义两个顶点之间的边。使用Dijkstra算法在图中找到最短路径，该路径决定了长读取的校正。使用One-End Anchors (OEA)校正未覆盖的区域，OEA是其配对与侧翼区域对齐的短读取。使用Minia组装OEA以获得一组contigs，用于校正未覆盖的区域。CoLoRMap生成未修剪的校正长读取。
- HECIL使用BWA-MEM计算对齐，并标记长读取和对齐的短读取之间的错误位置。对于强烈一致的位置，将长读取的核苷酸替换为短读取的一致核苷酸。对于剩余的错误位置，为每个对齐的短读取分配一个组合分数，该分数基于其质量和对齐相似性。选择组合分数最低的短读取的碱基作为长读取的校正。HECIL在每次迭代中对一部分高置信度位置进行校正。HECIL生成未修剪的校正长读取。
- ECTools在错误校正过程之前需要一组短读取组装成unitigs。使用Nucmer将unitigs与长读取进行对齐，并选择最佳覆盖每个长读取的unitigs子集进行校正。ECTools建议使用Celera进行短读取组装，以确保所有信息传递到unitigs。ECTools不会自动生成短读取组装。
- ECTools和HALC是两种错误校正工具，它们需要一组组装好的短读取作为错误校正过程的基础。
- ECTools使用基于最长递增子序列问题的算法来计算最佳unitigs子集，然后用它来校正长读取。
- HALC使用组装生成的contigs，并使用BLASR将长读取与contigs进行对齐。从对齐中构建一个无向图，表示重复区域中的替代对齐。
- MiRCA对短读取应用过滤步骤，删除具有过多错误的短读取。使用SPAdes组装剩余的高质量短读取，并使用BLAST+将其与长读取进行对齐。根据对齐进行校正。
- LoRDEC使用从短读取的实心k-mer构建的de Bruijn图。长读取的实心k-mer用作图上的锚点，并通过遍历路径来校正长读取的区域，这些区域由弱k-mer组成。对内部区域和长读取的两端应用不同的校正方法。
- LoRDEC通过应用两次校正（从左到右和从右到左）来校正长读取。校正生成新的实心k-mer，用作第二次校正的锚点。短读取中的重复和测序错误可能导致遍历不同的子图。
- Jabba首先校正短读取以限制测序错误对de Bruijn图的影响。它使用长读取和图顶点之间的最大精确匹配（MEM）。图是使用高质量k-mer构建的，允许解决短重复。使用种子和扩展策略将长读取与图对齐。
- FMLRC使用FM-index构建可变顺序的de Bruijn图。通过使用实心k-mer作为锚点，在图上找到路径来校正长读取。使用不同的k-mer大小进行两次校正，以提高校正质量。
- ParLECH有两个校正步骤，一个用于插入缺失，一个用于替换。它从短读取k-mer构建de Bruijn图，并通过遍历图来校正弱k-mer区域，使用实心k-mer作为锚点。选择具有最高最小k-mer覆盖度的校正路径。
- ParLECH是一种用于校正长读取中的替换的方法。它首先将长读取分割成与短读取大小相似的较短片段。这样可以更好地区分低覆盖度的基因组k-mer和高覆盖度的错误k-mer。根据k-mer覆盖度的Person's skew系数，将片段分类为正确或错误。将错误片段进一步分为高覆盖度和低覆盖度的子集。使用多数表决算法校正替换，对于高覆盖度和低覆盖度区域使用不同的阈值。
- 隐马尔可夫模型（HMM）也用于校正长读取的错误。模型初始化为表示原始长读取的状态，并使用与每个长读取对齐的短读取子集进行训练。从训练模型计算一致序列以校正长读取。
- Hercules首先压缩长读取和短读取的同源多聚区域。删除长度小于给定阈值的短读取，并将剩余的短读取与长读取进行对齐。Hercules使用对齐的起始位置和一个配置了插入和删除状态的profile Hidden Markov Model (pHMM)来生成长读取的一致序列。在一致计算过程中，pHMM被修改以考虑插入和删除状态。