您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 如何做序列的blast分析
1如何做序列的BLAST分析2内容提要Blast简介•Blast相关问题Blast的应用•示例Blast简介BLAST是NCBI中用来将一个蛋白质或DNA序列和各种数据库中的其他序列进行比对的主要工具。BLAST搜索是研究一个蛋白质和基因的最基本的方法之一。Blast具有非常广泛的运用确定特定的蛋白质或核酸序列有哪些已知的直系同源或旁系同源序列确定哪些蛋白质和基因在特定的物种中出现确定一个DNA或蛋白质序列身份发现新基因确定一个特定基因或蛋白质有哪些已经发现了的变种研究可能存在多种剪切方式的表达序列标签寻找对于一个蛋白质的功能和/或结构起关键作用的氨基酸残基3主要的blast程序45主要的blast程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。6具体步骤1.登陆blast主页根据已有序列类型和搜索目标,选择合适的blast程序Blastn,Blastp,Blastx等3.填写表单信息选择要搜索的数据库,并修改一些可选参数等4.提交任务5.查看和分析结果具体步骤输入要分析的序列7NP_006735三种主要的输入方式•剪切然后粘贴DNA或蛋白质序列•使用FASTA格式的序列•简单地使用索引号码(如一个RefSeq或GenBank(GI)的序号)具体步骤选择要搜索的数据库(blastp)8去冗余GenBank编码序列PDB+SwissProt+PIR+PRFNr数据库•合并了若干个主要的蛋白质或DNA数据库•数据库有相同的序列,但nr数据库只收录一个•典型和常用的数据库具体步骤选择要搜索的数据库(blastn)9具体步骤调整可选参数1.LimitbyEntrezQuery10可以用任何一种范围限定词来限定NCBIBLAST搜索的范围具体步骤调整可选参数2.Maxtargetsequences:比对之后显示的最大的比对序列的数目11具体步骤调整可选参数3.Expectthreshold:期望值E是得分大于或等于某个分值S的不同的比对的数目在随机的数据库搜索中发生的可能性。12•默认值是10,表示随机出现得分等于或高于比对得分S的期望数为10个。•当将期望选项值调小时,返回的数据库搜索结果将变少,匹配被搜索到的概率也会变小。•增大E值将返回更多的结果。具体步骤调整可选参数4.Wordsize(字段长度)13•蛋白质搜索,默认值是3•核酸序列搜索,默认值是11•改变字段长度可以影响搜索精度和速度具体步骤调整可选参数5.Matrix(打分矩阵)14•在一次BLAST搜索中,可以尝试使用几种不同的打分矩阵•高PAM值取代矩阵适合于差异较大的序列•低BLOSUM62值的取代矩阵适合于差异较大的序列具体步骤调整可选参数6.Compositionaladjustments,默认选择,一般来说可改善E值的统计计算和提高灵敏度(减少返回的假阳性结果的数目)15具体步骤调整可选参数7.Filter(选择性过滤条件),过滤器将锁定诸如组成低复杂序列区(如Alu序列),用一系列N(任意碱基)替代这些程序16•过滤对绝大多数序列是有利的,可以帮助避免那些假的数据库匹配•但某些情况下可信的匹配也会过滤掉具体步骤Blast输出结果上部•BLAST搜索的类型、关于查询内容和所搜索的数据库的描述以及一个分类连接可以将结果按照物种进行分类中部•数据库中序列与查询序列相匹配的项的列表,分为图像和列表两种描述方式下部•一系列的两两序列比对,4种衡量的分数:比特分数、期望分数、一致性百分比、正性(相似性百分比)17具体步骤Blast输出结果18databaseprogramquerytaxonomy具体步骤Blast输出结果19每一个条带表示数据库中的一个与查询序列相匹配的蛋白质或核酸序列,被标以不同颜色表示亲缘关系的远近(根据比对的分),最接近匹配用红色表示。Highscoreslowevalues20具体步骤Blast输出结果Score•使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。Evalue•在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。具体步骤Blast输出结果,改变格式21BLAST搜索策略总图示例如何处理过多的结果•在“limitEntrezquery”窗口输入“refseq”,这样所有返回结果都带有一个refseq号,可去掉冗余的数据库匹配结果。•利用生物体的种类对数据库返回结果作出限制。•利用序列的一部分进行搜索。如利用独立的结构域序列就可进行多结构域蛋白的检索。•调整打分矩阵使其更恰当地体现你的query和数据库匹配之间的相似度。•调整期望值。降低E值可减少返回的数据库中的匹配项。BLAST搜索的一些策略如何处理过少的结果•很多基因或蛋白在数据库中没有或只有极少数的匹配项。当新的微生物基因组测序完成时,预测到的蛋白质有一半不和其他任何蛋白相匹配。•用于提高BLAST搜索得到的数据库匹配项数目的策略:•去掉Entrez限制,提高期望值,尝试更高PAM值或更低BLOSUM值的打分矩阵。还可从更多附加数据库中搜索。在NCBI站点上,可搜索所有可提供的数据库如HTGS和GSS,很多基因组序列中心保存着不同的数据库可通过BLAST进行搜索。BLAST搜索的一些策略谢谢!25
本文标题:如何做序列的blast分析
链接地址:https://www.777doc.com/doc-3837183 .html