如何统计参考基因组的大小

发布时间 2023-06-24 23:53:15作者: 小鲨鱼2018

 

以绵羊为例:

 

001、下载绵羊参考基因组

a、

 

b、

 

[root@PC1 test02]# wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/016/772/045/GCF_016772045.1_ARS-UI_Ramb_v2.0/GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# gunzip GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.gz
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna

 

002、统计基因组的大小

a、awk命令实现

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# awk '$0 !~ /^>/ {sum += length} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
2628146905

 

b、samtools + awk实现

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# samtools faidx GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai
[root@PC1 test02]# awk '{sum += $2} END {print sum}' GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna.fai
2628146905

 

003、统计N的数目

[root@PC1 test02]# ls
GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna
[root@PC1 test02]# grep -v "^>" GCF_016772045.1_ARS-UI_Ramb_v2.0_genomic.fna | grep -i -o "N" | wc -l
42000