您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 生物信息学实习三宋捷
生物信息学实习三学号:2012014069姓名:宋捷专业年级实验时间:2012-6-29实验目的:1.学会用BLAST+进行本地数据库搜索2.学会使用HMMER进行HMM模型构建,数据库搜索和序列比对实验内容:1.利用BLAST+进行本地数据库建立(makeblastdb),过滤(核酸:dustmasker蛋白:segmasker),及目标序列搜索构建好的数据库(核酸:blastn蛋白:blastp)。2.使用HMMER进行HMM建模(Hmmbuild),数据库搜索(hmmsearch)及序列比对(hmmalign)。比较MUSCLE比对及HMM比对的优劣。作业:1.SearchfornucleotidesequencesofyeastinthenucleotidedatabaseofNCBI,limitthedatabasetoRefseq,saveallthesequencesinfastaformat.Constructafiltereddatabasewithdustmaskerandmakeblastdbprogramfromtheretrievedyeastsequences.UsethenucleotidesequenceofyeastDNAtopoisomerase1asthequerytosearchtheyeastnucleotidedatabase.Brieflydescribeyoursteps,givethecommandsthatyouusedfordatabaseconstructionandsearch,explainwhateachcommandsdo.Howmanyhitshaveyoufound?Whatistherelationshipbetweenthehitsandthequerysequence?(relatedorunrelated?orthologousfromdifferentorganismsorparalogsfromsameordifferentorganism?)SearchdetailsSaccharomycescerevisiae[Organism]ANDrefseq[filter].Result6030RefSeq.Downloaditsfastafile.MakefilelocateInput“dustmasker-inyeast.fasta-infmtfasta-parse_seqids-outfmtmaskinfo_asn1_bin-outyeast_dguolv.asnb”and“makeblastdb-inyeast.fasta-input_typefasta-dbtypenucl-parse_seqids-mask_datayeast_dguolv.asnb-outyeast2“into“cmd”EnterNucluotideadvancesearching,inputyeastintoOrganism,input“topoisomerase1”toallfields.Downloadits“topoisomerase1”gennesequence.Asshowninfigure(Thefilteredinfo).搜索时限定物种,所以搜索结果中的基因不存在直系同源关系,当限定是拓扑异构酶时,结果中有它的1型2型的等变体,他们应该是并系同源,以及在每个染色体上的该基因的位置和序列,也应该是并系同源,很多结果是由相同的物种同染色体不同的个体得到的,应该大体是同一个基因,可能存在点突变,直系同源(没有细查)。blastn-taskblastn-queryDNAtopoisomerase1.fasta-dbyeast2-outresult.txt共29条前两条结果相同,是该序列。其余的全是该物种酵母,有些是挑出来基因和染色体中的基因,同一个。在不同染色体上的该基因及其变体之间的关系可能为并系同源(但得分很低),其他的大多数非同功能的基因相似度并不高,可能是随机匹配上的.2.Searchtheproteindatabasefor“nitrogenase”sequences,limitthedatabasetoRefSeqandsavetheresultsinfastaformat.Constructthefilteredproteindatabasewithsegmaskerandmakeblastdbprogram.ThensearchtheproteindatabasefornifDfromRhizobiumetliasthequery(500aa).Searchtheconstructedproteindatabaseforpossiblehits,brieflydescribeyoursteps,givethecommandthatyouused,theninterprettheresultasinquestion1.(optional)Search“nitrogenase”sequenceswithgrammar“nitrogenase[AllFields]ANDrefseq[filter]”.Saveitsinfastaformat.segmasker-innitrogenase_datebase.fasta-infmtfasta-parse_seqids-outfmtmaskinfo_asn1_bin-outnitrogenase_guolv.asnbmakeblastdb-innitrogenase_datebase-input_typefasta-dbtypeprot-parse_seqids-mask_datanitrogenase_guolv.asnb-outnitrogenaseblastp-taskblastp-queryNifD.fasta-dbnitrogenase2-outprotein_result.txt-matrixBLOSUM50-outfmt7bitscoreevalueqcovspidentsaccstitle-num_threads4500条结果第一条应该是目的序列,与该条序列相似度极高,执行功能列斯且是同一个物种,两种基因可能是并系同源,如23等.第三条第四条第七条等之间可能存在直系同源关系,序列的位置功能等相同,但是个体物种有差异。检索结果里大多是不同种的同一个基因,为并系同源。3.SearchthePfamdatabasefornacfamily,downloadthealignmentofseedsequencesinStockholmformat,usehmmbuildtobuildaHMMfromthosesequences,thenusethisHMMmodeltosearch(hmmsearch)themaizeproteinsequences(rarfilenamedmaizeproteinsequenceinthepractice3folder)forpossiblemembersofthenacfamilyinmaize.Next,makeamultiplesequencealignmentofthemaizemembersofthenacfamilyyouhavejustfoundwithhmmalign.AlignthesamesetofsequenceswithMUSCLEandanswerthefollowingquestions.IsthereanydifferencebetweenthealignmentobtainedfromhmmalignandMUSCLE?Whichoneseemsmorereliable?Giveyourevidence.方法\位点123456740HMMlogoEDPKRKQRLMAQRKKARAMTQYKHmm比对DEKKRSLQRSATATQFMUSCLEDEKKRSLQRKGSATQF方法\位点3233343536373839HMMlogoLTFVHIEIVDNENKQPAVKEDVILHmm比对IFQVFVIVQSLNKPKVMUSCLEILQVFVISMLVQNKPTKDRVCQF上图依次是通过hmmsearch找到的序列,hmmalign结果的clustal形式,muscle结果,以及以上结果和HMMlogo(排名前三热点)比对的结果。Hmmalign结果更可靠,可用性强,它能将插入序列(虽然多序列相似但是不是从HMM模型中推导出的序列部分)以小写形式表现出来。其不完全相同的位点有4个,从可视化角度看各保守区域界限明显,muscle有七个不完全匹配的位点(有四个与hmmmalign相同)。编辑时移动截图位置导致截图莫名丢失....
本文标题:生物信息学实习三宋捷
链接地址:https://www.777doc.com/doc-2199593 .html