6. 简单基因家族分析

发布时间 2023-09-24 18:29:52作者: acmloser

2023.09.24

1. 任务背景

  芝麻是一种油料作物.产油比其他作物高很多,这里以基因的背景来研究芝麻产油的原因.这里我们专门研究FAD4基因,它在油脂合成中也起到重要作用.我们对比不同作物的FAD4基因的拷贝数,研究它对产油的影响.
  下图是我们要得出的结论,我们发现FAD4在拟南芥中有3个拷贝,在大豆中有2个拷贝,在芝麻中有5个拷贝,最后构建一个进化树.
image
  但得出这个结论需要我们进行基因分析,我们可以发现拟南芥的基因有比较全的资料,因此找到拟南芥的FAD4基因,然后在大豆和芝麻中进行相似度分析,找到芝麻中比较相似的5个基因,对大豆同理.

image

2. 项目准备

  首先就是需要建立项目路径,我们在workspace下建立项目文件夹FAD4.找到相似序列的工具是blast.BLAST(Basic Local Alignment Search Tool)是一套在蛋白质 数据库 或DNA数据库中进行相似性比较的分析工具.BLAST程序能迅速与公开数据库进行相似性序列比较.BLAST结果中的得分是一种对相似性的统计说明,more.
  找到对应工具后,需要的就是找到工具的输入,也就是拟南芥的FAD4序列.这个序列正常来说,可以找蛋白序列,也可以是c
ds序列.可以看这个Click,简单来说cds是翻译成蛋白质的RNA序列,它没有内含子.

这是一个经常被人混淆的两个概念;CDS是Coding sequence的缩写,是指编码一段蛋白产物的序列,是与蛋白质密码子一一对应的序列,注意其与mRNA序列的差异;ORF是open reading frame的缩写,翻译成开放阅读框,是指从一个起始密码子开始到一个终止密码子结束的一段序列,但并不是所有读码框都能表达出蛋白产物;CDS必定是一个ORF,但也可能包括多个ORF,相反,每个ORF不一定都是CDS.

  拟南芥的序列存放在atha_FAD4.fa文件中.用less指令查看如下图,这里使用的是蛋白序列(说是cds序列存在同义替换,没理解什么意思)
image