TBtools的sequence toolkit常用功能介绍-526互联

#博客园是我最近看到的一个平台，我在其它平台包括B站，简书，知乎，CSDN和小红书都有发布教程。

fasta extract (recommended)

给出序列的ID，可以提取特定序列，要点Initialize。

fasta stats

查看序列文件的统计信息。

sequence manipulate (rev&comp)

对序列进行正反链的互换，点击reverse和complement。

对序列进行单行处理，并将序列转换成大写，点击uppercase和seq in one line。

只显示文件的ID或序列。

ID simplify

可以去除ID之后的tab分隔符后面的全部内容。不用选参数。

ID rename

对文件中序列的ID进行重新命名，需要输入旧ID与新ID，中间用tab分隔符隔开。

ID prefix

可以在全部的序列ID前面加几个字母。

fasta to table convert

将fasta格式，转换成普通的桌面格式，只是去掉>，将序列排在ID后面而已。

merge and split

merge: 将两个fasta序列文件融合成一个fasta文件。split: 将含有一堆序列的文件分成含有一条序列等的多个文件，如“spilt into: 1, split mode: record per file”，就可以将原本含有50条序列的某个文件，分割成50个文件，每个文件只有1条序列。

sequence pattern locate

对某个特定的序列进行搜索定位，如对“aaatt”这个特定的序列进行搜索，就会显示序列文件中该短序列的对应的基因ID和位置。

complete ORF predict (batch mode)

提取全基因序列中的CDS序列，要求：真核；确保有完整的CDS。输出文件会有三个，一个是CDS序列文件，一个是CDS翻译出来的蛋白序列文件，一个是找不到确凿的ORF的序列文件。

batch translate CDS to protein

将CDS转换成蛋白序列，输出文件会有*，代表终止密码子，可以用notepad++注意查看*与>的数量是否相同，若不同则代表某条序列提前出现了终止密码子，这个务必注意，可以用notepad++去除末尾的*号。

Primer check (simple e-PCR)

检查一下引物是否匹配而已，若匹配，会有框框出来，不匹配就会error，做引物还是用snapgene软件好些。

GXF sequences extract

NCBI下载基因组文件和GFF文件，并提交到该工具对应框框中，记得点initialize，就可以提取CDS，gene，transcript，lnc_RNA，上游启动子序列（选CDS，parent，upstream bases 2000， retain only upstream or down stream bases）。

GXF gene position & info .extract

提取基因的位置，和染色体长度，提取基因位置后，用excel打开并整理保存为xlsx格式，后面经常用到。但是这样提取的文件，缺少蛋白ID，CDS的长度和CDS（include intron but not UTR）位置，我们用GXF sequences extract提取CDS序列，feature ID选ID而不是parent，再选“retain attributes in header”，再用sequence manipulate(rev&comp)只把ID保留下来，用excel整理，并与前面提取的基因位置文件，用Vlookup公式比对整合信息，就可以得到各个基因的信息，蛋白长度就用CDS length除以3，再减1（终止密码子）。有些基因不是编码蛋白的，格式就不匹配，这些基因很少，若需要这些基因信息就去GFF文件单个找吧。

sequence常用tbtools toolkit

percona-toolkit常用percona toolkit

tbtools

功能deployment microsoft toolkit