DESeq2步骤
DESeq2原理
2014原理论文发布在Genome Biology。
Estimate dispersion的策略:
第一步,通过极大似然估计粗略估计出各基因的 dispersion 参数。
(若包含非常多的sample 或者 repeat 数目, 这一步基本就能得到最终结果)
第二步,对极大似然估计的结果进行拟合,得到趋势线。
第三步,对于一些远离趋势线的点,向趋势线附近调整。
接下来对上面三步实操:
使用DESeqDataSetFromMatrix获取DESeq2的对象后,如果需要一步获取则使用DESeq函数即可
deseq2.obj = DESeqDataSetFromMatrix(countData = count_df.filter, colData = sample_df, design = ~condition)
deseq2.obj
deseq2.obj = DESeq(deseq2.obj)
可以看到DESeq的输出为:
分别是这么几步:
estimating size factors 做 normalization 用的 RLE 方法
estimating dispersions 通过极大似然估计各基因的 dispersion 参数
gene-wise dispersion estimates 拟合极大似然估计得到的结果,得到趋势线
mean-dispersion relationship 对于一些远离趋势线的点,向趋势线附近调整