生信工具: DESeq2的原理

发布时间 2023-10-17 16:04:41作者: 仗剑天涯横刀笑

DESeq2步骤

DESeq2原理

2014原理论文发布在Genome Biology。

Estimate dispersion的策略:

第一步,通过极大似然估计粗略估计出各基因的 dispersion 参数。

(若包含非常多的sample 或者 repeat 数目, 这一步基本就能得到最终结果)

image-20231011154534113

第二步,对极大似然估计的结果进行拟合,得到趋势线。

image-20231011152842382

第三步,对于一些远离趋势线的点,向趋势线附近调整。

image-20231011152944766

接下来对上面三步实操:

使用DESeqDataSetFromMatrix获取DESeq2的对象后,如果需要一步获取则使用DESeq函数即可

deseq2.obj = DESeqDataSetFromMatrix(countData = count_df.filter, colData = sample_df, design = ~condition)
deseq2.obj
deseq2.obj = DESeq(deseq2.obj)

可以看到DESeq的输出为:

image-20231011154121422

分别是这么几步:

estimating size factors 做 normalization 用的 RLE 方法

estimating dispersions 通过极大似然估计各基因的 dispersion 参数

gene-wise dispersion estimates 拟合极大似然估计得到的结果,得到趋势线

mean-dispersion relationship 对于一些远离趋势线的点,向趋势线附近调整