1. 背景引入
本小节开始讲述转录组测序的准备工作.因为做的是有参的基因组分析,所以首先是准备参考基因组、测序数据.当数据准备完成后,接下来是比对参考基因组,表达定量,合并成表达矩阵,差异表达分析.
上面是转录组分析的大致步骤,这节我们介绍的是参考基因组.
2. 准备参考基因组
2.1 下载参考基因组
我们准备参考基因组序列的基本原则是下载物种最新、最优、最近的基因组.
现有多个生物数据库存储他人的测序信息.但是有的数据库侧重不同的方向,比如GENCODE着重于人与小鼠的基因组.下图是GENCODE提供的人的基因组页面的fasta部分.我们解释一下\(GRCh38.p14\)都代表什么意思
- GRC:
The Genome Reference Consortium
的缩写,即为基因组参考联盟.早期在发表文章的时候,发现参考基因组的序列不一致,会导致实验结果对不上,因此为了避免这种情况,GRC成立以统一参考基因组序列. - h38: 第38个版本.
- p14: 第14版补丁.
我们在测序人类的基因组做了很多工作,但仍有得到一些\(DNA\)片段,却不知道它属于哪个染色体的情况.\(Region\)的\(ALL\)表示包括这些不清楚情况的\(DNA\)片段.而\(pri\)则不包括这些,而是主要是染色体上的DNA.DNA不一定全在染色体上,叶绿体、线粒体上也有DNA.