宏基因组测序流程及其分析步骤

发布时间 2023-11-02 10:41:49作者: 王哲MGG_AI
  1. 测序样本信息:完成了70个根际土壤样本的宏基因组测序。

  2. 数据预处理

    • 使用KneadData工具进行质控和去宿主处理。
    • 利用Trimmomatic去除接头序列并进行质量过滤。
    • 使用Bowtie2构建宿主库和进行去宿主处理。
  3. 从头组装:采用MEGAHIT工具对原始测序数据进行从头组装,生成contigs。

  4. 基因预测与处理

    • 使用Prodigal进行基因预测,生成DNA和蛋白质序列,并对其长度进行过滤。
    • 利用CD-HIT对DNA序列进行聚类,生成非冗余序列,并通过Perl脚本筛选相应的蛋白质序列。
  5. 基因定量:构建Salmon索引并对原始测序数据进行基因定量分析。

  6. 物种注释

    • 使用Kraken2进行多层次的物种注释,包括读长、重叠群、基因和宏基因组组装基因组的注释。
    • 利用Bracken(Kraken 2的伴生程序)计算物种的丰度。
  7. 功能注释

    • 使用HUMAnN工具套件进行多层次的功能注释,包括通路覆盖和基因家族注释。
    • 利用Bowtie2和MetaPhlAn3分别进行库构建和微生物群落分析。
    • 对基因家族进行重新分组和分类,并标准化丰度数据。

#################################################################################

流程描述:

  1. 开始 -> 测序70个根际土壤样本的宏基因组。

  2. 数据预处理

    • 输入:原始测序数据。
    • 使用KneadData进行质控和去宿主。
      • 子步骤:
        • Trimmomatic:去除接头序列,质量过滤。
        • Bowtie2:构建宿主库,去宿主处理。
    • 输出:预处理后的数据。
  3. 从头组装

    • 输入:预处理后的数据。
    • 工具:MEGAHIT。
    • 输出:contigs。
  4. 基因预测与处理

    • 输入:contigs。
    • 子步骤:
      • Prodigal:进行基因预测,输出DNA和蛋白质序列。
      • CD-HIT:对DNA进行聚类,输出非冗余序列。
      • Perl脚本:筛选相应蛋白质序列。
    • 输出:预测的基因和蛋白质序列。
  5. 基因定量

    • 输入:原始测序数据、预测的基因序列。
    • 工具:Salmon。
    • 输出:基因的定量数据。
  6. 物种注释

    • 输入:原始测序数据、contigs。
    • 子步骤:
      • Kraken2:进行多层次的物种注释。
      • Bracken:计算物种的丰度。
    • 输出:物种的注释和丰度数据。
  7. 功能注释

    • 输入:原始测序数据、预测的基因和蛋白质序列。
    • 子步骤:
      • HUMAnN:进行多层次的功能注释。
      • Bowtie2 & MetaPhlAn3:库构建,微生物群落分析。
    • 输出:功能注释、通路覆盖和基因家族注释。
  8. 结束