杭州CDC测序实验室教程

发布时间 2023-04-06 23:25:50作者: YuinginYu

非常棒的教程~https://indexofire.github.io/pathongs/book/main/

 

PulseNet(病原菌分子分型监测网络)是美国CDC于1998年5月由副总统在白宫宣布成立的,这个网络是利用标准化的细菌实验室分子分型技术、通过分布各地的网络实验室的实际检测和监测,建立网络平台及时交流和比对数据、从而识别食源性传染病发生的关联、调查暴发流行、快速鉴定暴发的来源。

PulseNet China是中国CDC传染病预防控制国家重点实验室(SKLID)发展的我国未来细菌性传染病实验室监测雏形,于2004年9月正式启动。

世界卫生组织全球沙门菌监测网(GSS

 

先Fork、然后clone仓库到远程服务器,在jupyter lab打开。

然后很多工具要用bioconda这个channel去下载,所以先添加一下

conda config --add channels bioconda
conda config --add channels conda-forge

 

 

主要内容:

一.常用工具

1.基因组公共数据库

SRA数据库(2007年,NCBI),实验数据与metadata(实验目的、实验设计、测序平台、样本数据等)分离:sudy、sample、experiment、run、submission。

ENA欧洲核酸数据库(EBI)、GSA中国组学数据库(中科院北京基因研究所)。

2.数据下载

主要使用aspera的ascp下载(安装包、添加路径、alias),ftp下载(NCBI不建议,很慢),sratoolkit(prefetch用ascp或http,fastq-dump),fastq-dump还可以转换.sra测序数据为.fastq格式(注意区分SE还是PE),entrez-direct工具(可以下载包编译安装,然鹅python版感觉比直接在终端搞好用)。

3.emboss工具合集(直接sudo apt安装)

4.blast比对

5.fastqc数据质控

6.multiqc数据质控

7.seqkit序列处理工具

8.khmer不依赖参考基因组对特定kmer统计计算差异

 

二.基本比对流程

  • 比对软件: bwa
  • BAM软件: samtools
  • 去重复: gatk4 MarkDuplicates
  • 生成vcf: freebayes
  • 注释vcf: snpEff

1.quast质量分析

2.细菌基因组组装

  • SPAdes <http://spades.bioinf.spbau.ru/>(conda安装)
  • MaSuRCA <http://www.genome.umd.edu/masurca.html>_
  • Velvet
  • A5_miseq

3.病毒基因组组装

freebayes

gatk4

snippy

4.gatk3/4突变位点分析流程

5.long reads组装

  • minimap2: all vs all 比对
  • miniasm: 组装
  • racon: 矫正

6.二代三代混合组装

  • spades
  • canu

7.bwa长片段比对,minimap2

 

三.基因组注释

1.prokka快速注释(conda安装)

2.在线注释工具rast

3.注释工具PGAAP

4.SNP注释工具snpEFF(conda)

5.COG注释

 

四.基因组比较

1.Mummer

2.NucDiff

3.mauve

4.Sibelia处理多个基因组完成图的共线性分析,C-Slibelia比较两个基因组;采用circos及d3js生成可视化结果。

5. ani

6.bigsi超高速SRA搜索(这个蛮好,后面研究一下)

 

五.泛基因组分析

pangenome概述

1.get_homologues分析pangenomes

2.BPGA

3.Roary

4.panseq

5.orthMCL

6.ITEP

 

六. 基因组可视化

1.IGV比对结果可视化

2.BRIG

3.circos

 

七.综合分析平台

1.docker

2.galaxy快速部署,利用docker部署到本地服务器上

3.amazon EC2云平台

 

八.重组与种群分析

病毒重组分析软件

Gubbins分析

BAPs分析

 

九.细菌扫描工具

SRST2关于MLST

MLST扫描工具mlst(conda安装)

ariba耐药基因

abricate多功能扫描工具(conda安装)

 

十.宏基因组分析

kraken宏基因组分析或者微生物测序序列污染鉴定

centrifuge同上

bracken将kraken的输出转化为物种丰度的估计

sourmash

clark

krona

pavian

supri老牌宏基因组序列扫描软件

kmerfinder鉴定物种,有在线版哦

meta-beetl,beetl下的一个子项目

 

Metagenomics 数据分析的基本流程:

  1. Trimming: 切除引物序列,barcode序列等
  2. Binnings:
  3. OTUs:
  4. Chimeras

常用工具:

  1. MEGAN
  2. mothur
  3. QIIME
  4. AXIOME & CloVR

16s种群分析实践:

流程

  1. 剪切序列
  2. FastQC 质控 + SeqQA 统计
  3. Pandaseq 双向测序数据拼接
  4. UCHIME 移除复制序列
  5. UCHIME 移除嵌合体序列
  6. CREST/RDP Classifier 查询非嵌合体序列,生成物种分配比例
  7. 生成物种各分类层级的结果

所需安装软件

  • sickle
  • usearch
  • Pandaseq
  • FastQC
  • CREST/RDP Classifier

 

十一.单分子测序

nanopore测序数据处理

使用软件

  • porechop v0.2.3: 取出接头序列
  • NanoFilt v2.2.0: 过滤低质量序列
  • canu v1.4: 三代组装软件
  • unicycler v0.4.7: 混合组装软件

目前主流的Nanopore长序列组装软件

  • miniasm: Li heng 开发的长序列组装工具
  • canu: marbl开发的组装工具
  • wtdbg2: 国内大牛开发的工具
  • flye: 最近新出现的热门的工具
  • unicycler: 主流的混合组装软件
  • spades: 主流的二代测序组装软件,可支持混合组装

 

pacbio数据分析

canu

trimming

porechop数据清洗

 

十二.多重序列比对

 

十三.构建进化树

RAxML

figtree

ggtree

 

十四.分子地理流行病学

cartoDB地理数据可视化(docker安装)

leaflet是R地图应用包,可用于病原流行病学分析

 

十五.分析实践

细菌SNP溯源分析

分析方法

利用 bwa 将目标基因组 reads 比对到参考基因组,用 freebayes 做 variant calling,获得各个样本的 SNPs,根据结果做进一步分析。

应用工具:

  • bwa
  • samtools
  • freebayes
  • vcffilter

    大量的日常工作或者不熟悉各种命令行工具使用的话,就需要更简便的软件或者pipelines来帮助完成整个分析工作。因此这里我们使用snippy来实现分析SNPs,并绘制基于snps的进化树。Snippy 不仅可以获得SNP(包括MultiSNP),也可以获得insertion, indeletion以及Comibination。文本格式的结果记录文件中的snps.tab中,也可以用浏览器打开snps.html查看。Snippy还可以生成多个基因组的共有SNPs的比对文件。用snippy分别生成3个TAP的snp列表数据到ouput*目录中,然后统计共有snps数量并生成snp序列文件aln。

 

细菌比较基因组学研究

https://indexofire.github.io/pathongs/book/C18_Analysis-Examples/02_comparative-analysis-Ban-genomes/ 蛮系统的一个案例,很好的参考例子哟~

 

十九.工具流工具

这里使用基于 python 的 ruffus 来建立 workflow,作为一个示例演示如何简化平时大量重复的工作。如果想了解更多关于 workflow/pipeline 的软件,可以查看以下网站: - common-workflow - awesome-pipeline(有意思,后续看一下)

常见的创建流程类软件:

更多流程软件参见这里

 

二十.其他

GI转Accession

文件格式fasta, embl, gcg, sam, bam, bed, vcf, gff, cram, 

 

最后,ARTIC纳米孔新型冠状病毒基因组测序方案(有空走一遍~)