基于长读的基因组重复序列查找技术研究

发布时间 2023-05-31 09:32:07作者: wangchuang2017

基于长读的基因组重复序列查找技术研究

郭睿

深圳大学

摘要:基因组中出现两次或者两次以上基本相同的序列称为重复序列。重复序列信息可以用来可以分析物种的进化,减少基因比对歧义,降低序列拼接数据缺失。与标准重复序列库对比,基于短读序列数据的重复序列查找技术得到的结果并不完整,平均长度较短。长读数据平均长度较长,比短读数据具有更多的信息,可以包含更长、更完整的重复序列。本研究利用长读数据查找重复序列,得到了更长、信息更全的重复序列。研究基于长读数据的重复序列查找技术,主要创新如下:1)提出基于长读数据的查找重复序列技术,得到比基于短读方法更长更完整的重复序列。该方法首先通过比较序列索引的MHAP方法,计算长读数据之间的重叠信息。然后构造重叠网络,其中网络顶点与边分别代表长读信息和重叠长度。之后再利用模块度最优化方法聚类网络节点,得到具有重叠多的读数基团。最后通过分析读数重叠长度的变化,得到基团中代表性读数长度,将其对应的重复序列作为基团代表性重复序列。2)提出RepPeak重复序列查找技术,通过改进RepLong,解决网络基团分辨率的问题,结果具有更好的解释性。该方法先以已有序列或通过Canu拼接长读数据得到的序列作为参考序列。之后分析长读数据与参考序列的比对结果,计算每一个参考序列位点的深度变化,得到深度变化大的位置。再对深度变化位置进行合并和去除操作,从参考序列中抽取对应的序列,即得到重复序列。利用基于长读数据的重复序列查找技术分析果蝇和人类基因数据,可以得到比基于短读技术更长的重复序列,包含了更完整的标准重复序列库信息,弥补了短读数据片段化,包含信息不完全的问题。充分利用了长读读长的优势,不需要拼接读数就可以得到更完整的重复序列。 还原
  • 专辑:

    基础科学

  • 专题:

    生物学

  • 分类号:

    Q811.4

导师:

李炎然; 朱泽轩;

学科专业:

计算机科学与技术