15-有参转录组实战1-批量质控-fastp

发布时间 2023-11-25 21:38:52作者: 啊辉的科研

 

#本教程部分参考B站15天入门生物信息教程,在开启以下教程前,请务必看看我前面两个教程,Linux系统上安装R语言(https://www.bilibili.com/read/cv24718269)和下载好转录组(https://www.bilibili.com/read/cv24719254)。

#1,我们对上次下载的转录组进行实战分析,首先进行质量控制,使用fastp软件。

conda list#查看目前已经安装的包

conda search fastp#查看版本

conda install fastp=0.23.2#建议装个偏旧的版本

fastp-h#检查是否安装成功,有东西出来就行

#2,对文件重命名,回看NCBI,SRR22954651- SRR22954653是野生型,另外3个就是过表达了。

 

 #3,生成sample.txt文件,每行后面有个空格,最后一行是空行:

 

#4,生成批量命令脚本

awk'{print "fastp -i "$1".fastq.gz -I "$2".fastq.gz -o "$1".clean.fq.gz -O "$2".clean.fq.gz -h "$3".html &"}'sample.txt>command_fastp.sh

#5,看看command_fastp.sh文件

 

#6,运行脚本

sh command_fastp.sh

#7,或者将步骤3-6改为使用for循环:

for i in {1..3};do fastp -i WT${i}_1.fastq.gz -I WT${i}_2.fastq.gz -o WT${i}_1.clean.fq.gz -O WT${i}_2.clean.fq.gz -h WT${i}.html;done;

for i in {1..3};do fastp -i OE${i}_1.fastq.gz -I OE${i}_2.fastq.gz -o OE${i}_1.clean.fq.gz -O OE${i}_2.clean.fq.gz -h OE${i}.html;done;

#8,等到html文件出来就行,这里大概用了15min,查看结果,有clean data,还有HTML的报告,报告解读主要看Q30>85%,它这个上传文件就是质控过的,所以质控前后的数据基本一致。目前生物公司测序后的数据基本也是像这样质控完了,才会给客户,而且质量基本都不错。但是以防万一,还是要自己质控一遍的。

 

 

#eva

#加个尾图