上下游分析

发布时间 2023-12-05 15:11:36作者: 王闯wangchuang2017

上游分析

这里说的上游分析,通常指的是NGS组学数据的标准化流程,比如
  • WGS/WES的fastq—>bam—>vcf
  • RNA-seq的 fastq—>bam—>表达矩阵-差异基因
  • ChIP-seq等的fastq—>bam—>peaks(bed)—>motif(特征)
理论上完全练习实践掌握其中一个,是算作入门生信,可以通过自学获取另外一些NGS组学数据分析经验。
无非就是看几篇综述,看几篇实战教程,找几篇好的练习数据,参考一些公开代码,把流程走一遍,解决各种报错,理解各种中间数据及结果,模式各式各样的参数。不过这样的模式其实是非常耗费时间和精力,除非是做生信工程师的朋友我们才推荐自己慢慢踩坑,累积自己的经验。如果从利用NGS数据的角度来讲,跟着精彩的实操视频教程过一遍是最方便快捷的了,这里不得不推荐我们生信技能树团队出品的一系列实操视频:https://biotree.ke.qq.com/ 目前已有课程是芯片处理+转录组,近期会上线WES/WGS/ChIP-seq实操视频等等。
不过,大部分的临床大夫应该是都不需要这这个上游分析耗费太多精力,除非有特殊爱好,所以我们直接进入下游分析的主题。

下游分析

既然上面提到了大部分生物信息学上游分析对临床大夫来说很少需要完全掌握,那么你们的精力就应该是更加集中于下游数据解读上面了。可以是各种临床基因检测数据分析结果(SNV/CNV)的解读,也可以是各种疾病与正常对照的各种生命大分子(DNA/RNA/protein)表现(通常是表达量或者信号强度)的区别的解读。
并不需要关系那些SNV是如何来的,总之每个病人测序后的数据会经过业界比较权威的分析流程最后得到一些位点的突变与否信息。至于这个信息的准确与否不仅仅是取决于数据分析的流程,主要还是依赖于实验环节的设计。但是医生想利用好上游分析结果,就必须要掌握各种各样的遗传变异资源数据库,包括千人基因组,EXAC, gnomAD等等。尤其是需要批量注释的时候,前面所学的R语言以及在linux环境下的软件安装及使用,批量脚本的技能就都能派上用场。
也不需要关心各种疾病与正常对照的各种生命大分子(DNA/RNA/protein)表现值是如何得到的,不管是基因芯片(affymetrix公司或者illumina公司,或者agilent公司),还是NGS得到的,总之每个基因在每个样本都会有一个可供比较的值。下游分析需要更加侧重于细节的把控,比如常见的统计分析方法: 差异分析,富集分析,GSEA等等,样本如何根据其各自属性进行分组比较,样本聚类是否符合预期,表达量是否具有可比性,是否有显著的需要去除的偏差。而做这些细化的分析对R语言的要求其实还蛮高的,所以我才推荐大家把一本书看3年!
从用的角度来看,生信我能推荐的就这些了,其他的反倒是自己的本职工作,切莫舍本逐末!如果真心对生物信息学感兴趣,或者觉得人生很长,愿意花时间掌握一些技能,可以看我推荐给生信工程师的资源路线图:生物信息学入门需要具备什么能力?