7. 转录组分析原理

发布时间 2023-09-26 22:47:29作者: acmloser

1. 测序的应用

1.1 基因组组装

  当我们进行二代测序时,常常就是将待测序列打碎,然后拼接,我们回顾一些基础知识:

  • reads:就是我们测序产生的短读序列,通常一代和三代的reads读长在几千到几万bp之间,二代的相对较短,平均是几十到几百bp。
  • contig:中文叫做重叠群,就是不同reads之间的overlap交叠区,拼接成的序列就是contig
  • scaffold:这是比contig还要长的序列,获得contig之后还需要构建paired-end或者mate-pair库,从而获得一定片段的两端序列,这些序列可以确定contig的顺序关系和位置关系,最后contig按照一定顺序和方向组成scaffold,其中形成scaffold过程中还需要填补contig之间的空缺.

image
  当我们拼接好一条DNA序列后,我们需要注明DNA上编码基因、重复序列、非编码RNA等等的位置,这一步骤称为基因组注释.

  • 基因组注释:即在一条DNA序列上,通过从头、同源、结构定义等多种方法,搜寻并定义基因组原件,得到其位置、序列、结构、功能等信息.
      当知道了DNA结构信息,我们可以对序列进行进化分析、比较基因组学的分析等等.这样就是二、三代测序的第一个应用:基因组组装.基因组组装就是把序列测序产生的读取片段reads经过序列拼接组装,生成基因组的碱基序列。基因组组装软件可根据得到的所有读长组装成基因组.

1.2 基因组重测序与变异检测

  全基因组重测序是对已知基因组序列的物种进行不同个体的基因组测序,并在此基础上对个体或群体进行差异性分析。SBC将不同梯度插入片段(Insert-Size)的测序文库结合短序列(Short-Reads)、双末端(Paired-End)进行测序,帮助客户在全基因组水平上扫描并检测与重要性状相关的基因序列差异和结构变异,实现遗传进化分析及重要性状候选基因预测.
  我个人的大致理解就是你拿一个单体的基因组和参考基因组对比,这样可以做碱基位置定位,发现一些特定位置的碱基有何不同,从而分析变异差异.
image

1.3 转录组测序

  当进行了DNA测序后,我们可能还会需要RNA测序.DNA测序技术采用的是边合成边测序的原理,而RNA是单链,无法进行这一步骤.因此我们测序RNA需要将RNA逆转录.
  那么转录组测序有什么用呢?我们将RNA逆转录成cDNA,然后打碎进行测序.我们可以在测序中得到不同的DNA碎片含量,以此判断哪些基因的表达量高.但这并不是究极目的,我们大多是测序同一基因在不同样本之间的表达量,如果A样本表达量高,B样本在经过一些处理后表达量低,这就说明B样本的基因表达量下降了.
image

2. RNA分析

2.1 为什么分析RNA

  生物基因研究的大多时候是在找到表型变化后的分子机制.比如种在同一块地下的两棵苹果树,种出来的苹果出现了红色和黄色两种表型.这时候我们就需要探索在基因表达的过程中,是哪一步出现了问题.比如DNA甲基化、RNA可变剪接(比如红色苹果的外显子3个串联连接,而黄色苹果跳过中间的外显子连接)、Protein折叠不同(二、三级空间结构).如果我们测序氨基酸的序列,而一个单体的基因组有很多基因,如果我们将这些基因表达的全部蛋白质都测序出来,目前的技术是做不到的.所以我们退而求其次,测序RNA,从RNA观察表型差异原因(但RNA的差异不一定就会导致蛋白质的差异,但RNA仍然是一个比较好的突破口).
image

2.2 RNA测序的步骤

2.2.1 ⽐对 Spliced alignment

  我们可以先将RNA分为三类:mRNA(编码RNA),lncRNA(长链非编码RNA),small RNA(短链非编码RNA).small RNA包括tRNA、核糖体RNA等.本小节专注于mRNA.
  mRNA变成成熟mRNA之后,会有一个Poly A的尾巴.也就是在RNA的3端加上的一段重复的AAA,我们可以利用类似钓鱼的手法,使用一段TTT将mRNA钓起来.这时钓起来的RNA几乎是mRNA,但也有lncRNA(部分也有poly A的尾巴)