基因家族生信分析

1、1基因家族生信分析一、什么是基因家族概念：是来源于同一个祖先，有一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因，他们在结构和功能上具有明显的相似性，编码相似的蛋白质产物。划分：按功能划分：把一些功能类似的基因聚类，形成一个家族。按照序列相似程度划分:一般将同源的基因放在一起认为是一个家族。1.常见基因家族：WRKY基因家族：是植物前十大蛋白质基因家族之一，大量研究表明，WRKY基因家族的许多成员参与调控植物的生长发育，形态建成与抗病虫。NBS-LRR抗病基因家族：是植物中最大类抗病基因家族之一。MADS-BOX基因家族：是植物体内的重要转录因子，它们广泛地调控着植物的生长、发育和生殖等过程。在植物中参与花器官的发育，开花时间的调节，在果实，根，茎，叶的发育中都起着重要的作用。热激蛋白70家族（HSP70）是一类在植物中高度保守的分子伴侣蛋白，在细胞中协助蛋白质正确折叠。二、基因家族分析流程：基因家族利用hmmsearch程序及隐马尔科夫文件和蛋白序列文件搜索含有该蛋白保守结构域的蛋白及核酸序列用蛋白序列构建进化树用meme程序搜索蛋白的motif绘制基因的染色体位置图转录。

2、本结构图基因的加倍复制在Pfam数据库下载蛋白质保守结构域的隐马尔科夫模型在数据库下载基因组数据2利用蛋白保守域结构提取号在Pfam数据库提取其隐马尔科夫模型矩阵文件（*.hmm）在数据库（Ensemble、JGI、NVBI）下载你所需要的物种的基因组数据（*.fa,*.gff）在虚拟机中Bio-Linux中的hummsearch程序，用隐马尔科夫模型矩阵文件在蛋白序列文件中搜索含有该保守结构域的蛋白将蛋白序列导入MEGA软件构建进化树（可以阐明成员之间系统进化关系，从进化关系上揭示其多样性）利用MEME搜索蛋白质的保守结构域利用MEME搜索基因家族成员的motif可以揭示基因家族在物种内的多样化及其功能，如果他们都含有相同的motif表明其功能具有相似性，如果部分家族成员含有其他不同的motif,很可能这些成员有其他特异功能，或者可以归分为一个亚族绘制基因染色体位置图从*.gff文件中抽取我们搜索到的基因位置信息，在线绘制基因染色体位置图通过染色体位置分布，可以了解基因主要分布字哪条染色体上，及是否能形成基因簇（被认为是通过重组与错配促进基因交流）基因结构分析从gff文。

3、件中抽取基因的结构信息，绘制转录本结构图。计算串联重复基因的Ka,Ks1.首先将筛选到的基因的cds序列进行多序列对比，筛选identity75%，tength大于对比的两条序列中较长的那条的长度的75%，将筛选到的基因分别用clustalw进行比对，比对结果导入KsKs_Calculster计算Ka，Ks、Ka/ks比，计算核苷酸的非同义替代（ka）与核苷酸的同义替代（ks）的平均速率。2.Ka/ks比值1表明：通过纯化选择降低了氨基酸变化的速率；比值=1表示中性选择；比值1,表明这些基因可能已经收到积极选择，有利于适应性遗传，这些受正向选择的基因将作为以后的研究重点。软件的安装从图片中获得进入NCBI-blast官网复制blast-linux版本的链接3在Linux终端1.blast的安装#wgetblast链接#tarxvfz文件名解压缩文件#mv解压缩文件/root/local/app#mv解压缩文件blast#vi.bashrc#在最后一行添加export$PATH=/root/local/app/blast/bin:$PATH并保存退出#source.bashrc运行#b。

4、lastp-version查看是否安装成功。2．hummer的安装#yuminstall-ywget//安装wget#wgethmmer源码链接#tar-zxvfhmmer-3.2.1#vi.bashrc#(在最末端添加的语句)PATH=$PATH:~/biosoft/hmmer-3.2.1/binaries4#yuminstall-ygcc#./configure#make#makecheck#makeinstall#whichhmmsearch查看是否安装成功。3.perl的安装#wget源代码链接#tarxvfzperl-5.28.1.tar.gz解压缩#cdperl-5.28.1#./configure#make#makeinstall安装完成。3.bioperl的安装#wget-O-|bash#perlbrewinstall-cpanm#/root/perl5/perlbrew/bin/cpanmBio::Perl三、具体操作：1.保守域结构分析下载蛋白保守结构域文件、cds、cDNA、gff注释文件和隐马尔科夫矩阵模型。以拟南芥为例：下载完成后，需要将文件传到Linux系统。

5、上进行分析：打开虚拟机输入ipa将虚拟机IP连接到Xshell上，在Xshell上进行操作，将文件通过xftp（同样需要连接IP）传到Linux系统上，然后进行解压。5(一个命令解压多个文件:gunzip*.gz)接下来用hummsearch寻找含有该蛋白保守结构域的蛋白及核酸序列安装hummsearchyuminstall-ywget//安装wget#wgethmmer源码链接#tar-zxvfhmmer-3.2.1#vi.bashrc#(在最末端添加的语句)PATH=$PATH:~/biosoft/hmmer-3.2.1/binaries#yuminstall-ygcc#./configure#make#makecheck#makeinstall#whichhmmsearch查看是否安装成功。解压文件移动到APP目录下面6在app目录下面新建文件夹mkdirhmmer将hmmer-3.2.1移到hmmer目录下面mmove-vc:/hmmer-3.2.1c:/hmmer删除安装包打开文字编辑器vi~/.bashrc在文字编辑器里最后一行添加以上内容安装好wget7如果makeche。

6、ck出现错误百度用以下方法解决出现complete安装完成#source~/.bashrc#whichhmmsearch8至此hmmer安装完成。虚拟机操作：1.导入下载好的文件；2.hmmsearch--cut_tc–domtbloutNB-ARC.txtNB-ARC.hmmArabidopsis_thaliana.TAIR10pep.all.fa可以用editplus打开.txt文件3.perldomain_xulie.pl结果文件.txt蛋白序列文件domain.fa1e-204.clustalw进行多序列比对，得到aln文件和dnd文件。5.hmmbuild拟南芥特异的hmm模型文件domain.aln6.hmmsearch–cut_tc–domtbloutresult.txtnewhmm文件蛋白质序列文件7.在Excel中，根据特定的evalue进行筛选，并对第一列进行去重复，得到第一列去重复的id，保存为id.txt8.用perl脚本根据id提取序列Perget_fa_by_id.plid.txt蛋白序列wenjain结果输出文件可以根据的得到的序列文件进行后续的构建进化树。

7、、motif分析等。2.搜索基因家族成员的MOTIF2.1需要准备的文件1.拟南芥NBS基因蛋白质序列92.蛋白保守结构域的隐马尔科夫模型矩阵文件2.2MOTIF的搜索使用meme软件命令：memenbs_pep.fa-protein-ocnbs_motif-nostatus-maxsize600000-moranr-nmotifs10-minw6-maxw50搜索结果存放在nbs_motif文件夹中。文件夹中的eps文件可以用AI打开编辑，可以另存为png或jpg格式，也可打开网页版，也可用tbtools软件打开，下载motif在基因上的位置信息。3.绘制基因在染色体上的位置图3.1需要准备的文件1.拟南芥NBS基因id2.拟南芥的注释文件（gff3文件）3.拟南芥基因组长度4.1在线绘图工具：MapGene2Chrom4.2samtoolsfaidx拟南芥.dna.toplevel.fa可得到拟南芥.dna.fa.fai文件该文件包括各个染色体，染色体长度。4.3对基因的id文件在Excel中进行分列，去重复处理。4.4使用处理过的id文件，对拟南芥的注释文件进行筛选使用perl脚。

8、本得到基因在染色体上的位置。命令：perlget_gene_gff.pl-in1基因的id文件-in2拟南芥gff3文件-out新文件名称4.5新文件存放的是基因在染色体上的位置4.6在在线文件MapGene2chrom中，将基因在染色体上的位置信息文件复制到，input1框中，在input2中粘入samtools得到的fai文件。4.绘制转录本的结构图4.1需要准备的文件101.拟南芥NBS基因转录本id（通过家族成员鉴定得到的蛋白id文件）2.拟南芥基因的注释文件（gtf文件）3.在线绘图工具：GeneStructureDisplayServer2.0http：//gsds.cbi.pku.edu.cn/index.php4.2具体方法1.准备gtf文件：输入命令：gffreadgff3注释文件-T-o输出文件（gtf文件）2.editplus打开gtf文件，去除”transcript:”3.使用perl脚本提取拟南芥转录本结构信息：命令：perlget_gtf.pl-in1拟南芥转录本id文件-in2gtf文件-out输出文件（nbs_gtf.txt）4.通过在线绘图工具，进行绘。

9、图。5.筛选出串联重复基因5.1准备文件1.拟南芥NBS基因CDS序列串联重复基因筛选标准【（a）lengthofalignablesequencecovers75%oflongergene,and(b)similarityofalignedregions75%】参考文献：ExtentofgeneduplicationinthegenomesofDrosophila,nematode,andyeast.2.由于筛选时产生的文件较多，因此创建新的目录：mkdir新目录3.用editplus打开家族成员的id文件，对转录本id进行处理，使一个基因只拿一个转录本。4.把id复制到Excel，首先排序处理，然后进行分列，然后以第一列删除重复值。最后将第一列和第二列进行合并。将处理好的id导入Linux。5.使用perl脚本提取cds序列：命令：perlget_fa_by_id.plid文件拟南芥cds序列文件cds.fa6.使用blast软件筛选串联重复基因116.1建立目标序列的数据库：makeblastdb-incds.fa-dbtypenucl-titlecds.fa6.2进行多序列比对。

10、：blastn-querycds.fa-dbcds.fa-evalue1e-20-outfmt9-outresult.txt6.3用editplus打开6.4得到cds序列的长度，使用samtools工具建立索引：命令：samtoolsfaidxcds.fa6.5用perl脚本对result.txt进行筛选，perlKAKS_SHAIXUAN.pl-in1cds.fa.fai-in2result.txt-outcleanresult.txt6.6用editplus打开，将内容复制到Excel，在id后插入一列用公式：if（A1B1,A1&B1,B1&A1）。然后全选，以第C列删除重复值。并保存到新的文件中，并导入到Linux中7.计算串联重复基因的KaKs。7.1准备文件1.串联重复基因的CDS序列文件7.2将成对的串联重复序列保存在一个文件中。、方法一：复制需要找到的序列的id，在editplus中按ctrl+F搜索，找到后复制粘贴到一个文件中。方法二：首先。