基于MECAT的长读长对相似基因组比对算法的研究与实现

发布时间 2023-05-31 09:32:07作者: wangchuang2017

基于MECAT的长读长对相似基因组比对算法的研究与实现

何欣雨

北京交通大学

摘要:基因测序的意义是使人类从根本上认知疾病发生的原因,做到正确的治疗疾病、尽早的预防疾病。例如肿瘤和红斑狼疮等疾病都是和基因变异有关,如果能过通过测序技术知道变异点,对精准治疗,攻克难题有重大意义。第三代测序技术是Pac Bio公司的Single Molecule Real-Timesequencing technology(SMRT)技术和Oxford Nanopore Technologies(ONT)的纳米孔单分子测序技术。测序技术测得的序列长度为10kbp-15kbp,测序成本低,序列平均错误为15%,但无偏向错误,可扩展应用领域,我们把三代测序得到的序列称为长读长。MECAT算法是针对三代测序技术的一种比对方法,该方法能够快速的将长读长比对到基因组上,但是比对结果中碱基数量较少覆盖度低。本文对MECAT算法提出两种优化方法,作者是利用长读长和相似基因组的区间差异以及长读长是来自基因组上的唯一位置这两个特性进行优化的。算法优化主要分为两个模块:(1)基于相似参考基因组与长读长的差异,提出了相似度的概念。首先我们在基因组上划分区域。计算基因组上区域和长读长的相似度,把计算出的相似度加入MECAT的计算候选比对部分,从而更改比对中心候选位置,促使更多的长读长更好的比对到基因组上。(2)作者利用已经出现的比对结果进行冗余结果过滤。比对结果中会出现长读长一个区域比对到相似基因组多个区域的情况,根据长读长在基因组上多个比对区域之间的距离两两计算距离比进行分值计算,选择最可靠的比对信息。在目前已有的数据实验显示中,大肠杆菌碱基比对数量对于MECAT算法提高4%-8%,覆盖度提高9%-12%。酵母菌碱基比对数量提高19%-130%,覆盖度提高5%左右。拟南芥菜碱基比对数量提高22%-25%,覆盖度提高20%-30%。多组实验证明我们对MECAT比对算法优化实现了良好的比对效果。 还原
  • 专辑:

    基础科学

  • 专题:

    生物学

  • DOI:

    10.26944/d.cnki.gbfju.2020.001418

  • 分类号:

    Q811.4

导师:

包尔固德;

学科专业:

软件工程