面向第三代测序数据的序列比对方法研究

发布时间 2023-05-31 09:42:12作者: wangchuang2017

面向第三代测序数据的序列比对方法研究

高岩

哈尔滨工业大学

摘要:随着第三代测序技术的不断发展,第三代测序数据在基因组组装、结构变异检测、全长转录本识别等领域得到了广泛的应用。序列比对作为第三代测序数据分析工作流程中最基础、最关键的步骤,一直都是当今生物信息学领域最重要的计算机科学问题之一。面对日益增长的海量测序数据,现有第三代测序数据比对工具在比对速度、准确性和敏感性等方面已经无法满足各类分析工作的比对需求,成为了阻碍基因组科学领域进一步发展的主要因素。本文全面总结了现有比对方法和工具的基本思想和主要策略,以全面提升第三代测序数据序列比对的速度、准确性和敏感性等方面为目标,根据序列长度长、错误率高以及包含大型结构变异等数据特点,针对性地开发了多个第三代测序数据序列比对方法,有效解决了现有工作流程中的多个计算瓶颈问题。论文的主要研究内容如下:(1)针对现有比对工具无法有效处理三代测序片段中的结构变异事件的问题,研究基于长近似匹配和骨架修剪的拆分比对方法LAMSA。该方法采用长种子近似匹配的选种策略,可以有效解决传统短种子策略难以处理的基因组重复区域问题,并通过树修剪的方式生成反映各类结构变异事件的比对骨架,进而实现结构变异断点附近的精确拆分比对。该方法能够快速、准确地将第三代测序数据比对到参考基因组上,并且对于测序片段中的结构变异断点具有精确识别能力,可以为下游基因组结构变异相关分析工作提供精准的测序片段比对结果。(2)针对现有图参考基因组比对工具无法有效处理第三代测序数据的问题,研究基于局部单体型索引的图参考基因组比对方法Hi Pan。该方法结合现有图参考基因组构建模式,通过设计基于群体单体型信息的局部单体型路径索引构建方法,实现对于图参考基因组节点内以及节点间序列的高效查询,进而完成测序片段在图参考基因组上的序列比对。该方法能够实现图参考基因组及其索引的高效构建,并且可以将第三代测序数据快速、准确地比对到图参考基因组上,能够为后续变异检测等相关工作提供测序片段在图参考基因组上的精确比对信息。(3)针对现有第三代测序数据局部多序列比对耗时巨大的问题,研究基于单指令多数据的并行带状偏序比对方法ab POA。该方法通过偏序比对的方式来完成多序列比对任务,借鉴在两两序列比对工具中广泛应用的比对带加速策略,将其推广到了序列与图的偏序比对过程当中,并设计基于单指令多数据的并行算法,实现动态规划过程运行速度的进一步提升。该方法能够显著减少偏序比对过程的运行时间,同时提供精确的偏序比对结果,可以为基于测序片段多序列比对的基因组局部精确重构提供速度和准确性支撑。(4)针对现有工具无法有效处理新型串联重复三代测序数据的问题,研究基于种子和链接的串联重复比对方法Tide Hunter。该方法针对新型测序片段中含有原始模板序列多个串联拷贝的数据特点,借鉴传统序列比对方法中‘‘种子和扩展’’的策略思想,将其扩展到串联重复比对这一新型问题中,实现对于串联重复单元的快速检测。该方法能够显著提高对于该新型数据的串联重复比对速度和敏感度,高效检测出其中的重复单元,并准确重构出原始的模板序列,可以为常规三代测序数据比对工作流程提供高质量、低错误率的测序片段。本文围绕第三代测序数据序列比对这一研究课题,从不同层面研究了序列比对工作中的多个重点、难点问题。通过开发多个第三代测序数据比对方法,在运行速度、比对准确性和敏感性等方面实现了对于现有工具的全面提升。其中,前三个方法组成了一套常规三代测序数据序列比对的解决方案,第四个方法针对新型数据实现了对于该解决方案的补充。这些方法切实解决了现有序列比对工作流程中的序列拆分比对、图参考基因组比对和局部多序列比对等多个计算瓶颈问题,为今后的大规模基因组前沿科学研究提供了基础性技术支撑,具有很高的实用价值和理论意义。 还原
  • 专辑:

    基础科学

  • 专题:

    生物学

  • DOI:

    10.27061/d.cnki.ghgdu.2020.004779

  • 分类号:

    Q811.4

导师:

王亚东;

学科专业:

计算机应用技术