生信:RNA-Seq 比对工具性能比较 [STAR、Tophat2、HISAT2]

发布时间 2023-08-25 18:25:10作者: 仗剑天涯横刀笑

RNA-Seq 比对工具性能比较

参考文章:

https://yanzhongsino.github.io/2021/11/19/omics_transcriptome.RNA-seq/

https://www.biostars.org/p/288726/

比对 (align) 介绍

序列比对 又称为 align

RNA-Seq 分析中的策略文件类型来看如下:

graph LR FASTQ文件----->SAM文件----->BAM文件

FASTQ文件到 SAM文件这一步就需要比对软件 [STARTophat2HISAT2] 来实现,目的是 把RNA-seq reads比对到合适的参考序列上.

如果用基因组作为参考序列可以检测到的转录本,但可能需要耗费更多的计算资源;如果用转录组作为参考则无法找出新的转录本,但速度更。如果研究物种没有可靠的参考序列,可以重头组装对转录本进行鉴定。这点在本文中不做过多介绍。接下来对RNA的 3 种比对策略进行介绍。

RNA-Seq的 3 种比对策略

STAR

优势在于 ,可以快速 mapping;

缺点在于需要内存大,可能达到 30Gb 左右的 RAM。

采用的算法为:Suffix Tree。可以高效地处理长读,并具有高精度和高敏感性。

Tophat2

现代实验室不常用,其速度较慢,常与Cufflinks连用。

采用的算法为:Bowtie2BWT

HISAT2

作为Tophat2升级版,其主要提升了速度,且低内存消耗。HISAT2在运行速度方面,比STAR快大约2.5倍。对SNP的信息进行了考虑 -- it can better handler known SNPs。

缺点在于没有STAR准确率高。

采用的算法为:改进的BWT方法,并引入了名为hierarchical indexing的概念。这种分层索引策略允许 HISAT2 首先在大的基因组区域中进行比对,然后在局部区域中进行细化比对,这大大提高了比对速度和效率。


附上发展的时间线:

Year Software Name
2009 Tophat
2012 STAR
2013 Tophat2
2015 HISAT
2019 HISAT2