基因组变异分析

发布时间 2023-12-15 11:05:40作者: 王闯wangchuang2017

基因组变异分析

基因组变异是指与参考序列相比,基因组中发生的单碱基变异、DNA序列片段插入、缺失、扩增和复杂结构变异等。

目前基于测序方法进行单核苷酸多态性(Single Nucleotide Polymorphism, SNP)、短的插入缺失(Insertion-Deletion, InDel)等变异检测的策略主要有:

 

(1)基于比对结果直接检测变异信息;

(2)基于从头组装结果比对检测变异信息。

而在结构变异(Structural Variation, SV)检测方面目前主要有四种策略:

(1)基于插入片段长度的异常分布(Read Pair, RP);

(2)基于读段覆盖度的异常分布(Read Depth, RD);

(3)基于未比对上的读段进行分割比对(Split Read, SR);

(4)长读段或者从头组装[43]。

不同策略可检测到的变异类型不同,可将多个策略整合在一起,从而大大降低假阳性率[43]。基于拼接的方法是当前获得全基因组范围内各类型变异最好的方法,但是该方法的结果准确性取决于高质量组装,有待高效准确组装方法的发展。GATK是当前公认的最主流的基因组变异分析软件之一,可应用于人和其它物种[44]。但是当前基因组数据变异分析在计算处理能力的瓶颈限制了这些技术的广泛使用,针对该问题已有用FPGA进行硬件加速、搭载GPU加速的Parabricks软件等方案来加速GATK的运行效率。测序读长加长可以提高变异分析的准确度,尤其是大的结构变异分析。未来测序技术的发展,兼具测序读长长和测序准确性,也将极大的改变变异检测方法的现状[45]。

如何解读这些变异信息,从海量的变异位点中筛选出真正具有生物学意义的基因位点是变异组学运用的主要瓶颈之一。目前可以通过GWAS分析获得基因型和表型之间的关系[46]。在GWAS分析中需要考虑适合样本的关联模型。样本的表型分两种:(1)数量性状的表型,这种关联分析主要采用线性回归模型,包括一般线性模型和混合线性模型,对于受到多因素共同影响的复杂数量性状常采用混合线性模型或者改进后的模型进行分析,仔细选择模型或者整合互补模型可以对复杂性状的遗传基础有更深入的了解[47,48];(2)case-control二元的表型,case和control比例失衡时,可能会导致较高的假阳性率,针对该问题提出的SAIGE模型显示出在样品比例极其失衡时结果仍较为正常的特点[49]。当前GWAS分析对于低频基因的挖掘能力有待提高,可以通过改进开发新的模型和新的群体设计揭示表型变异的确定原因[47]。而将GWAS关联结合转录组、甲基化组等组学研究的数据分析,即eQTL、meQTL等分析,则可以将表型与基因组变异,再到基因表达、甲基化等之间的关系联系起来。整合多组学数据进行联合分析揭示复杂性状的分子机制,这也是目前变异解析的主要挑战[50]。在识别各类QTLs位点的时候,需要进行多重假设检验和校正,常用的多重假设检验校正方法有Bonferroni校正、BH校正和随机打乱后进行Storey校正等[51]。当前的多重假设检验校正方法难以兼具准确性和速度,保证准确度需要耗费大量的内存和时间,尤其是对于trans-eQTLs位点识别时用随机打乱后进行Storey校正方法,通常的超级计算机集群是基本不可能完成的,亟需新的模型和算法优化来攻克这道难关[52]。