8. 参考基因组

发布时间 2023-09-28 09:28:00作者: acmloser

1. 背景引入

  本小节开始讲述转录组测序的准备工作.因为做的是有参的基因组分析,所以首先是准备参考基因组、测序数据.当数据准备完成后,接下来是比对参考基因组,表达定量,合并成表达矩阵,差异表达分析.
  上面是转录组分析的大致步骤,这节我们介绍的是参考基因组.

2. 准备参考基因组

2.1 下载参考基因组

  我们准备参考基因组序列的基本原则是下载物种最新、最优、最近的基因组.
  现有多个生物数据库存储他人的测序信息.但是有的数据库侧重不同的方向,比如GENCODE着重于人与小鼠的基因组.下图是GENCODE提供的人的基因组页面的fasta部分.我们解释一下\(GRCh38.p14\)都代表什么意思

  • GRC:The Genome Reference Consortium的缩写,即为基因组参考联盟.早期在发表文章的时候,发现参考基因组的序列不一致,会导致实验结果对不上,因此为了避免这种情况,GRC成立以统一参考基因组序列.
  • h38: 第38个版本.
  • p14: 第14版补丁.
      我们在测序人类的基因组做了很多工作,但仍有得到一些\(DNA\)片段,却不知道它属于哪个染色体的情况.\(Region\)\(ALL\)表示包括这些不清楚情况的\(DNA\)片段.而\(pri\)则不包括这些,而是主要是染色体上的DNA.DNA不一定全在染色体上,叶绿体、线粒体上也有DNA.
    image