基于长读数的序列组装方法研究与应用

陈冉冉

河南理工大学

摘要：长读数因为在跨过基因组重复区方面具有卓越的表现,因此逐渐得到了广大研究者的青睐。通过分析和挖掘测序技术产生的长读数的数据特征,研究基于长读数序列组装方法,实现高速度、高准确性、高连续性的基因组组装,对支持和推动生命科学中一系列重要的基础性研究具有重大意义,如:基因层面的疾病确诊;发现潜在疾病的发病风险;对个体化用药提供指导;指导生育健康的下一代等等。但是来自第三代测序技术的长读数,虽然测序长度长,但是测序错误率高,而基因组重复区域等原因,为基于长读数的基因组装研究带来了很大的阻碍。针对长读数的数据量巨大,读数长,但是错误率高的特点,本论文在基因组组装有两个重要步骤做出了研究和改进,第一个是将测序技术产生的DNA序列进行重叠检测;第二是将contigs组装成scaffolds的过程。通过对长读数数据集本身特征,k-mer特征统计分析,以及对相关算法的研究,本论文提出了基于k-mer特征分布的长读数重叠检测算法,该算法根据k-mer分布特征筛选出可靠k-mer,在使用二阶段策略,最终确定重叠区间。通过对scaffolding算法的研究和分析,以及对contigs数据集和长读数数据集的研究分析,本论文又提出了基于长读数和contigs分类的scaffolding算法,该算法充分发挥了长读数特性,并与contigs分类方法相结合,将contigs分为唯一的contigs和模糊的contigs,利用唯一的contigs创建scaffold图,此方式不仅简化了scaffolding图的复杂性,还提高的组装的准确性。针对这两种算法,本文均使用两种以上的同类工具进行了性能比较,基于k-mer特征分布的重叠检测算法,使用准确率,召回率和F1-score三项指标与MHAP算法和minimap2算法进行了比较。基于长读数与contigs分类的scaffolding算法与同类的工具SSPACE-Long Read、LINKS和np Scarf进行了性能比较,并从contigs分类的有效性和重复性感知框架进行了分析比较,结果均表现良好。这两种方法工具的提出,为序列组装的研究提供了新的思路和解决方案。还原

关键词：

长读数;序列组装;重复区域;重叠检测;scaffolding;

基金资助：

国家自然科学基金61972134,基于长短读数结合的结构变异检测方法研究；国家自然科学基金61602156；河南省科学技术研究计划项目192102210118；