您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 常用生物信息软件介绍
常用生物信息软件介绍深圳华大基因研究院刘文彬liuwenbin@genomics.org.cn前言常用生物信息软件学习方法背景知识的了解软件操作的学习输出结果的分析2背景知识的了解渠道:参考生物信息分析软件书籍网络资源(软件主页、生物网站等)华大内部资料(、、etc)3Wiki:://seqanswers.com/wiki/Software/list博客:背景知识的了解了解的内容:领域分类:组装、注释、进化、重测序、变异检测等。方法原理:专业术语、算法、生物学原理意义及现状等。4软件操作的学习软件的查找:官网、文献大型机查找使用locate、witch命令e.g:locateblast输入文件格式要求、容量要求是否需要预处理(建库、配置、etc)是否调用数据库文件格式:软件操作的学习提交方式命令行菜单交互网络提交参数使用参数类型:布尔、数字、浮点数、字符串--help文档6输出结果的分析过程文件与最终展现结果输出结果的格式及数据意义位点信息序列信息统计表格、图分析与解释7常用生物信息学软件介绍1.序列比对局部比对:Blast全局比对:ClustalW2.基因注释重复序列查找:RepeatMasker、ProteinMasker、TRFRNA分析:tRNAScan基因预测:Glimmer、August3.进化分析分子进化和系统发育分析:MEGA、Phylip、Paml81序列比对简介序列比对的目的比较基因或基因组片段的相近程度。推测一组序列是否起源于共同祖先。序列比对的重要性序列数据库搜索、序列拼接、基因蛋白质功能预测,以及进化树构建等,都依赖于分子序列相似性比较,序列比对是序列分析的基本工作。序列比对的分类按比对限定区域分:全局比对和局部比对。按排比序列的数目分:成对比对和多序列比对。91序列比对简介序列比对的方法打分模型:替换矩阵、空位罚分联配算法:Needleman-Wunsch(全局联配)、Smith-Waterman(局部联配)常用工具局部比对:Blast、Blat、Lastz、Genewise、Fasta全局比对:ClustalW、MUSCLE、HMMER、Needle10end序列比对的分类全局比对是找出两个序列全长的最优比对。局部比对则着眼于两个序列是否有局部序列的相似性。有些序列在全程范围内并不具有相似性,但含有结构功能密切相关的保守片段,这种情况下,使用局部比对是较为合理的。返回序列比对的分类成对比对是只有一对序列的比对,往往用于相似性确定之前生物关系的确定。多序列比对是多条序列同时进行比对,常用于已知生物关系的一组序列,保守区域的确定。12序列比对打分模型打分矩阵替换矩阵包括了联配中各种替换组合,两个碱基或两个氨基酸之间的分值,下表列出的四种碱基间的一种替换模型:常用的打分矩阵有:tm50、tm70、BOLSUM、PAM13序列比对空位罚分空位罚分一般空位罚分有两个参数值,即起始空位罚分和空位延伸罚分。对于一个长度为k的连续空位,罚分可以表示为:score=a+b*k序列:AAGCTGAATTVSAGGCTATTT怎么比对???14简单比对计算模型打分矩阵:起始空位罚分:-3空位延伸罚分:-0.5序列:AAGCTGAATTVSAGGCTATTTHigherscoreBetteralignment返回15Score=14-1-4-3.5=5.5AAGCTGAATT-AGGCT--ATTTAAGCTGAATTAGGCT-ATTTScore=14-1-3.5-2=7.5Smith–Waterman算法Smith–Waterman算法为得到最佳比对结果,需要一个打分矩阵,包含正确匹配分值、错配分值以及gap分值。这些分值需要根据实际情况给定,而这些又取决于不同的比对策略。得到打分矩阵后,利用动态规划的思想找到打分最高的值,再使用回溯的方法得到实际比对结果。软件包含SSEARCH、Jaligner、Path、UGENE、PALMapper等Smith–Waterman算法说明利用以下方法建立打分矩阵gap]...1[]...1[),(,1,1,),()1,(),(),1(/),()1,1(0max),()(),(),(),(,a0,0),0(0,0)0,(i可用来表示-’匹配分值,‘与为的长度为串的长度,为串组成的字符串为来自某一自字符集合其中:=否则如果jbiajiHbnambanjmiInsertionbwjiHDeletionawjiHMismatchMatchbawjiHjiHmismatchwbawmatchwbawbnjjHmiiHjijijijij举例序列1=ACACACTA序列2=AGCACACAw(match)=+2w(a,-)=w(-,b)=w(mismatch)=-1举例为了得到最佳比对结果,找到矩阵中最大值的坐标(i,j)。然后回溯(i-1,j),(i,j-1),(i-1,j-1),得到其中合理最大的值在例子中有(8,8),(7,7),(7,6),(6,5),(5,4),(4,3),(3,2),(2,1),(1,1),和(0,0)构建比对结果,从最后一个坐标开始,依次将对应字符进行填充序列1=A-CACACTA序列2=AGCACAC-A1.1Blast介绍1.1Blast介绍Blast简介Blast使用说明输入文件运行方式常用参数与输出结果其他参考资料21Blast简介全称BasicLocalAlignmentSearchTool,即“基于局部比对算法的搜索工具”。Blast能够实现两段核酸序列或者蛋白序列或者核酸与蛋白序列之间的同源性比较。可实现5种可能的比对方式。Blast具有较高的比对速度和较高的比对精度,并给出比对得分、相似度、E值等评价指标。22返回Blast的比对方式方式查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。tBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对返回Blast输入文件输入文件为fasta格式,fasta文件里每一条序列的第一行为标题行:“”加序列ID开头,后面可以加注释信息但不换行,第一行以后是序列的内容,形式如下:CSE_GLEAN_10002021_CYNSEMSDSDDDGSFMSLPTAASLQRQSLTSELSNKNTSNQQHLIQFCRDSEALAHCLLPQQQSVQMSDSDDDGSFMSLPTAASLQRQSLTSELSNKNTSNQQHLIQFCRSID_001TGTGAAAGGCACAGGGTCCAGTCCAGCCATGCTTAGCCACAAGAAGGGAGAGAAAGGTCTTTAACAGTGGGACCATCTGCTTTATTATTTCCCAACTATCTGGACACTCCTCTGCAG24返回Blast运行方式Blast运行方式:建数据库:首先用目标序列建数据库(这种数据库成为database,里面的每一条序列成为subject)逐一进行双序列比对:用待查询序列(称为query)在database中搜索,每一条query与database中的每一条subject都进行双序列比对,从而得出全部比对结果。25Blast运行方式Blast运行方式:建数据库:formatdb-idb.seq[-options]运行比对blastall-iquery-ddatabase-pblastn,blastp,blastx,tblastn,tblastx-o[result][-options]26返回建库·参数说明formatdb-idb.seq[-options]参数说明:-p(T/F):是选择建库的类型,“T”表示蛋白库缺省值);“F”表示核酸库。-o(T/F):是否分析序列名并建立序列名索引,“T”表示建立序列名索引;“F”不建立(缺省值)。-l:-l文件名用来改变LOG文件的命名-n:-n文件名可以自定义生成的库文件命名27建库·输出结果建核酸库输出文件db.seq.nhr、db.seq.nin、db.seq.nsq使用“-oT”还输出:db.seq.nsd、db.seq.nsi、db.seq.nni、qb.seq.nnd建蛋白库输出文件db.seq.phr、db.seq.pin、db.seq.psq使用“-oT”还输出:db.seq.psd、db.seq.psi、db.seq.pni、qb.seq.pnd除此外还生产LOG文件默认为formatdb.log,里面记录运行时间、版本号、序列数目等信息。28建库·注意事项1.核酸序列可以用于建核酸库和蛋白库,但是蛋白序列不能用于建核酸库。2.库文件会生成在输入文件所在目录,建议先将输入文件链接到指定目录再进行建库。3.如果选择了“-oT”,并且目标序列文件id号有重复,程序会停止建库并报错。4.subject序列的标题行中含有非法字符,比如Tab,则程序会报错。5.序列文件中存在序列的长度为0,程序也会报错。29Blast比对·参数说明blastall-iquery-ddatabase-pblastn,blastp,blastx,tblastn,tblastx-o[result][-options]常用参数:-p:选择比对方式:blastn,blastp,blastx,tblastn,tblastx-o:输出文件名,缺省时结果输出方式为屏幕输出30Blast比对·参数说明-F[T/F]用来屏蔽简单重复和低复杂度序列,选“T”会屏蔽[缺省值]query中的简单重复和低复杂度序列,选“F”则不屏这些序列。屏蔽区域在核酸序列中用“N”来替代,在蛋白序列中用“X”来替代。我们用含有两段简单重复(红色区域)的序列进行自身比对31-F缺省参数结果-FF结果使用-F参数的策略比较两个结果,我们看出使用缺省参数的比对结果损失了一部分信息,得到的统计结果也出现失真,期望值和identity未能反映出真实情况。有时较长的重复序列甚至会导致比对终止。加了“-FF”就保证了比对结果的完整性。通常在大规模、低精度的比对中,往往用缺省参数,这样能避免程序把过多的时间浪费在无意义的简单重复上,提高运行速度;而在小规模、高精度的比对中,需要加上参数“-FF”,保证比对的精确度和完整性。Blast比对·参数说明-e:是指对一个给定的打分值,在随机情况下,在数据库中搜索比对的结果数目的期望,缺省值是10。E值越小结果越可靠。通常,对于不同物种间的比对e值设在1e-5左右,而同源性较高的物种比对可用1e-10或更小。-m:设定输出结果的格式,为0到11之间的整数。-m参数与输出结果-m0:缺省值,显示一个query和一个subject两两比对的信息。36-m参数与输出结果-m[1-6]:都显示quer
本文标题:常用生物信息软件介绍
链接地址:https://www.777doc.com/doc-4278792 .html