第三代DNA测序数据压缩方法研究

发布时间 2023-05-31 09:32:07作者: wangchuang2017

第三代DNA测序数据压缩方法研究

崔浩翔

深圳大学

摘要:第三代测序技术自问世以来在临床分子诊断中扮演着越来越重要的角色,尤其在基因组测序、甲基化研究、突变鉴定(SNP检测)等方面。测序技术的不断发展使得测序成本逐年下降,测序数据量急剧增加,如何存储和传输庞大的测序数据是当前亟需解决的问题。数据压缩技术可以有效减少测序数据的存储空间并减少传输时间。通用压缩工具未能很好的利用DNA测序数据的数据特性,对测序数据的压缩比存在一定的局限。而目前DNA测序数据的专用压缩工具大多是针对第二代测序数据开发,在面对第三代测序数据的长读长、不固定读长、错误率高等特点时,绝大多数压缩工具均无法正常工作。所以设计专门针对第三代DNA测序数据的压缩工具变得十分重要。本文介绍了当前DNA测序数据压缩的研究背景及现状,并提出两个针对第三代DNA测序数据的压缩方法,主要工作内容如下:(1)提出基于最小哈希和局部敏感哈希技术的第三代DNA测序碱基数据压缩算法min Base Zip,算法使用杰卡德系数评估序列之间的相似性,对整个碱基序列建立特征矩阵,通过最小哈希和局部敏感哈希快速筛选出相似序列并分组,最后对各个组内序列使用基于上下文特性的gzip工具进行压缩。在来自多个测序平台的开源数据集上进行实验,和多个测序数据专用压缩工具及通用压缩工具进行对比,结果表明min Base Zip能够利用类内部的数据冗余性,提升压缩比。(2)在上述碱基数据聚类的基础上,进一步提出基于组装的fastq完整数据压缩方法min Compress,算法将fastq文件分为三个部分进行压缩,碱基部分使用wtdbg2组装工具对每个分类文件进行组装获得基因组,并将每个分类文件和获得的基因组使用基于参考基因组压缩方法LWFQzip2进行压缩;元数据和质量分数分别采用增量编码和游程限制编码进行压缩。在来自多个测序平台的长读测序数据上进行实验,和多种针对fastq文件的压缩工具进行对比,实验结果表明min Compress能在合理的时间和空间成本下获得更好的压缩比。本研究针对第三代DNA测序数据提出的压缩方法,能够帮助缓解第三代DNA测序数据所带来的存储和传输压力,并为后续相关研究提供了一定的借鉴。 还原
  • 专辑:

    基础科学

  • 专题:

    生物学

  • DOI:

    10.27321/d.cnki.gszdu.2020.000661

  • 分类号:

    Q811.4

导师:

朱泽轩;

学科专业:

计算机技术(专业学位)