您好,欢迎访问三七文档
目录第一章mRNA上机指南...........................................................................................21Blast使用说明........................................................................................22.ESTscan使用说明................................................................................133SOAPdenovo使用说明........................................................................194SOAP2.0使用说明...............................................................................255SOAPsplice使用说明...........................................................................305WEGO使用说明....................................................................................336DAVID使用说明...................................................................................418Cluster使用说明....................................................................................499KOBAS使用说明.................................................................................61第二章miRNA上机指南........................................................................................671RNAStructure使用说明.......................................................................672Mireap使用说明...................................................................................713miRanda使用说明................................................................................744RNAhybrid.............................................................................................785Targetscan使用说明.............................................................................816PickPlantTar使用说明..........................................................................847psRNATarget使用说明.........................................................................90参考文献......................................................................................................................93第一章mRNA上机指南1Blast使用说明1.1简介Blast,全称BasicLocalAlignmentSearchTool,即基于局部比对算法的搜索工具,由Altschul等人于1990年发布。Blast能够实现比较两段核酸或者蛋白序列之间的同源性的功能,它能够快速的找到两段序列之间的同源序列并对比对区域进行打分以确定同源性的高低。Blast的运行方式是先用目标序列建数据库(这种数据库称为database,里面的每一条序列称为subject),然后用待查的序列(称为query)在database中搜索,每一条query与database中的每一条subject都要进行双序列比对,从而得出全部比对结果。Blast是一个集成的程序包,通过调用不同的比对模块,blast实现了五种可能的序列比对方式:blastp:蛋白序列与蛋白库做比对,直接比对蛋白序列的同源性。blastx:核酸序列对蛋白库的比对,先将核酸序列翻译成蛋白序列(根据相位可以翻译为6种可能的蛋白序列),然后再与蛋白库做比对。blastn:核酸序列对核酸库的比对,直接比较核酸序列的同源性。tblastn:蛋白序列对核酸库的比对,将库中的核酸翻译成蛋白序列,然后进行比对。tblastx:核酸序列对核酸库在蛋白级别的比对,将库和待查序列都翻译成蛋白序列,然后对蛋白序列进行比对。1.2安装NCBI提供免费下载,网址:,可根据自己得机器选择相应操作系统的版本。直接解压缩包即可。解压缩命令:zcat*.tar.gz|tarxvf1.3使用方法Blast的运行分为两个步骤:第一,建立目标序列的数据库;第二,做blast比对。(1)运行建库程序formatdb:建库的过程是建立目标序列的索引文件,所用程序是formatdb。程序允许的输入格式FASTA或者ASN.1格式,通常我们使用FASTA格式的序列作为输入。用于建库的FASTA序列是db.seq,formatdb的基本命令是:formatdb-idb.seq[-options]常用的参数有以下几个:-p(T/F):-p参数的意义是选择建库的类型,T表示蛋白库,F表示核酸库。缺省值为T。-o(T/F):-o参数的意义是判断是否分析序列名并建立序列名索引。T表示建立序列名索引,F表示不建立序列名索引。缺省值为F。程序输出:如果建立的是核酸库,输出为db.seq.nhr、db.seq.nin、db.seq.nsq,如果选择了参数-oT,还会同时输出db.seq.nsd、db.seq.nsi、db.seq.nni、db.seq.nnd。蛋白库和核酸库的输出类似,相应的输出文件为:db.seq.phr、db.seq.pin、db.seq.psq和db.seq.psd、db.seq.psi、db.seq.pni、db.seq.pnd。除了这些结果,程序还会输出LOG文件(默认为formatdb.log),里面记录了运行时间、版本号、序列数量等信息。几点需要注意的问题:1、建库以后,做blast比对的输入文件就是建库所得的文件db.seq.n**或者db.seq.p**,而不是原始的FASTA序列。也就是说,建库以后,原始的序列文件是可以删除的。2、如果命令行中选择了-oT,并且目标序列中含有gi号重复的的序列名时,程序会停止建库并报错。例如,下列序列文件中出现了重复的序列名:gi|112385745|gb|DQ859020.1|Oryzasativa(japonicacultivar-group)glutathioneS-transferase2mRNA,completecdsATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGTGCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCTCAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT......CAAGCAGCACTCCCAGACAGACAACCAGATGCCCCTTCCTCTACCTAGgi|112385745|gb|DQ859020.1|Oryzasativa(japonicacultivar-group)glutathioneS-transferase2mRNA,completecdsATGGCGGAGGCGGCGGGGGCGGCGGTGGCGCCGGCGAAGCTGGGTCTGTACTCGTACTGGCGGAGCTCGTGCTCGCACCGCGTCCGCATCGCCCTCAACCTCAAAGGATTGGAGTACGAGTACAAGGCGGTGAACCTGCTCAAGGGGGAGCACTCTGATCCAGAATTCATGAAGGTTAATCCTATGAAGTTCGTCCCGGCATTGGTCGAT......运行时就会报如下错误:[formatdb]ERROR:Failedtocreateindex.Possiblyagiincludedmorethanonceinthedatabase.3、如果输入序列不符合FASTA格式或者ASN.1格式,程序会自动退出,并报错:[formatdb]ERROR:Couldnotopendb4、核酸序列可以用于建核酸库和蛋白库,但是蛋白序列不能用于建核酸库。其他参数简介:-l:-l文件名用来改变LOG文件的命名-n:-n文件名可以自定义生成的库文件命名-a:输入文件为ASN.1格式(2)运行比对程序blastall:Blast的主程序是blastall。程序的输入文件是query序列(-i参数)和库文件(-d参数),比对类型的选择(-p参数)和输出文件(-o参数)由用户指定。其中“-p”参数有5种取值:-pblastp:蛋白序列与蛋白库做比对。-pblastx:核酸序列对蛋白库的比对。-pblastn:核酸序列对核酸库的比对。-ptblastn:蛋白序列对核酸库的比对。-ptblastx:核酸序列对核酸库在蛋白级别的比对。这些元素就构成了blast的基本运行命令(以blastn为例):blastall-iquery.fasta-ddatabase_prefix-oblast.out-pblastn其中如果-o参数缺省,则结果输出方式为屏幕输出。下面以一个blastn比对为例,来说明比对全过程:Query序列(query.fasta):gi|45593933|gb|AY551259.1|OryzasativaprecursormicroRNA319cgeneAGGAAGAGGAGCTCCTTTCGATCCAATTCAGGAGAGGAAGTGGTAGGATGCAGCTGCCGATTCATGGATACCTCTGGAGTGCATGGCAGCAATGCTGTAGGCCTGCACTTGCATGGGTTTGCATGACCCGGGAGATGAACCCACCATTGTCTTCCTCTATTGATTGGATTGAAGGGAGCTCCACATCTCTgi|45593932|gb|AY551258.1|OryzasativaprecursormicroRNA319bgeneCATATTCTTTTAATTTGATGGAAGAAGCGATCGATGGATGGAAGAGAGCGTCCT
本文标题:miRNA上机指南
链接地址:https://www.777doc.com/doc-4930146 .html