第三代 PacBio 长read 纠错算法主要包括以下几个方向:

发布时间 2023-05-19 21:01:25作者: wangchuang2017

第三代PacBio长read纠错算法是指基于单分子实时(SMRT)测序技术的 PacBio 平台产生的长 read 数据,对这些数据进行错误校正所采用的算法。相比于第二代测序技术,PacBio长read数据具有更长的 reads 长度和更低的基础错误率,但仍然存在一定程度的随机误差和缺失等问题,需要进行错误校正以提高它们的可靠性。 目前,第三代 PacBio 长read 纠错算法主要包括以下几个方向:

基于覆盖图的纠错方法,例如 PBJelly、LSC、Falcon 等,利用 overlaps 信息对 reads 进行重叠和连接,并通过局部窗口比对来评估错误位置并进行修正。

基于深度学习模型的纠错方法,例如 DeepEC、DeepVariant 等,通过训练神经网络模型从输入的 reads 序列中学习特征,并对其进行纠错。

基于互补 reads 的纠错方法,例如 HiCanu、LR-ICE 等,利用不同短 reads 技术(如 Illumina)产生的 reads 与 PacBio 长reads 相结合进行纠错,其中互补 reads 可以用于评估和纠正 PacBio 长reads 中的错误。

基于拓扑结构信息的纠错方法,例如 LoRDEC、wtdbg2 等,利用 DNA 甲基化等拓扑信息对 reads 进行评估和校正

。这些方法通常需要将长read序列与短read序列结合使用,可以在一定程度上提高错误修正的准确性和鲁棒性。

需要注意的是,各种纠错算法都有其优缺点,要根据实际情况选择合适的算法进行 PacBio 长read 的纠错。

另外,在未来的研究中,还可以进一步探索新的纠错策略和方法,以提高 PacBio 长read 数据的质量和可靠性。