您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据库 > Windows系统下本地blast
Windows系统下本地BLAST的实现2BLAST简介BLAST是由美国国立生物技术信息中心(NCBI)开发的一个基于序列相似性的数据库搜索程序。BLAST是“基本局部对比搜索工具”(BasicLocalAlignmentSearchTool)的缩写。BLAST是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。3生物序列的相似性(可量化)相似性(similarity):指一种很直接的数量关系,部分相同或相似的百分比或其它一些合适的度量。比如,A序列和B序列的相似性是80%,这是个量化的关系,可进行局部比较。4同源性(homology):指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论,属于质的判断。即在A和B的关系上,只有是同源序列,或者非同源序列两种关系。而说A和B的同源性为80%是不科学的。生物序列的同源性(不可量化)5相似性与同源性的关系序列的相似性和序列的同源性有一定的关系,一般来说序列间相似性越高,它们是同源序列的可能性越高,所以经常通过序列的相似性来推测序列是否同源。正因如此,很多时候对序列相似性和同源性未做明显区分,经常等价混用两个名词。故而出现A序列和B序列同源性为80%的说法。6序列相似性比较与序列同源性分析序列相似性比较:是将待研究序列与DNA或蛋白质序列库进行比较,找出与此序列相似的已知序列。完成这一工作需要使用两两序列比较算法。常用程序:BLAST、FASTA等。序列同源性分析:是将待研究序列加入到一组来自不同物种的同源序列中进行多序列比较,以确定该序列与其它序列间的同源性的可能性大小。这是理论分析方法中关键的一步。完成这一工作须使用多序列比较算法。常用程序:CLUSTAL等。7主要的BLAST程序程序名查询序列数据库搜索方法Blastn核酸核酸核酸序列搜索逐一核酸数据库中的序列Blastp蛋白质蛋白质蛋白质序列搜索逐一蛋白质数据库中的序列Blastx核酸蛋白质核酸序列6框翻译成蛋白质序列后和蛋白质数据库中的序列逐一搜索。Tblastn蛋白质核酸蛋白质序列和核酸数据库中的核酸序列6框翻译后的蛋白质序列逐一比对。TBlastx核酸核酸核酸序列6框翻译成蛋白质序列,再和核酸数据库中的核酸序列6框翻译成的蛋白质序列逐一进行比对。8Blast资源NCBI:(网络版)(单机版)9Blast结果给出的信息Blast结果会列出跟查询序列相似性比较高,符合限定要求的序列结果。根据结果可获取信息:1.查询序列可能具有某种功能2.查询序列可能是来源于某个物种3.查询序列可能是某功能基因的同源基因„10两种版本的Blast比较(一)网络版本包括NCBI在内很多网站提供在线blast服务。优点:使用方便,容易操作,数据库同步更新。缺点:不利于操作大批量数据,不能构建自己的数据库。11单机版通过NCBI的ftp站点获得,有适合不同平台的版本(包括linux,win,dos等)。优点:可以处理大批的数据,可以自己定义数据库。缺点:操作也没有网络版直观、方便,数据库不能实时更新。两种版本的Blast比较(二)12Blast程序评价序列相似性的两个数据Score:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,匹配片段越长、相似性越高则Score值越大。Evalue:在相同长度的情况下,两个氨基酸残基(或碱基)随机排列的序列进行打分,得到上述Score值的概率的大小。E值越小表示随机情况下得到该Score值的可能性越低。NCBI提供的在线Blast服务去NCBI下载单机版的Blast程序单机版的Blast使用找到NCBI单机版blast程序的ftp资源入口选择ncbi-blast-2.2.25+-win32.exe版本下载到本地本地blast程序,可安装在C:根目录下安装后Bin文件夹下有多种可运行程序将自己的序列文件(比如转录组测序所得unigenes文件)拷贝到bin文件夹;本ppt所用芝麻的序列数据下载自NCBI。NCBI(taxonomydatabase)物种分类学数据库搜索芝麻(sesame)信息芝麻信息分类ID号:TD4182EST:4万多条;核酸序列:6万多条下载芝麻所有mRNA序列开始-运行-输入cmd;进入命令行模式进入到D:\BLAST中进入到D:\BLAST\bin执行dir显示bin目录下内容(程序和数据)格式化数据库makeblastdb-help执行:makeblastdb–insesameEST.fasta–dbtypenucl–outsesameESTdb芝麻本地EST数据库得以建立执行:makeblastdb–insesameNT.fasta–dbtypenucl–outsesameNTdb构建芝麻本地NT数据库本例子所用FtsHaa.txt文件中,含有一些以fasta格式存在的氨基酸序列。makeblastdb–inFtsHaa.txt–outftshaaDB–dbtypeprot创建本地蛋白序列数据库本地数据库已准备好,可进行本地blast。sesametest.txt文件由随机从sesameEST和sesameNT中各抽出2条序列组成。TSA:TranscriptomeShotgunAssemblyblastn-helpblastn–querysesametest.txt–dbsesameESTdb–out002.txt打开002.txt文件,查看本次blastn结果。对sesametest.txt运行blastn搜索sesameNTdb数据库查看003.txt文件默认输出结果的格式类同在线blastBlast结果呈现方式可选如:blastn时加参数“–outfmt7”,结果以第7种格式呈现。参数-num_descirptions和-num_aligmentsBlastn–querysesametest.txt–dbsesameESTdb–out005.txt–num_descriptions5–num_alignmetns2Blast结果中保留5条descriptions和2个alignments文件Aligments参数可设为0,“–num_alignmetns0”blastp-helpblastp–queryatftsh9aa.txt–dbftshaaDB–outaa01.txt–num_descriptions3–num_alignments1blastx–querytestftshnt.txt–dbftshaaDB–outx002.txt-num_descriptions6–num_alignments4–outfmt0查看blastx结果可建个文件夹专门存放数据在D:\BLAST\database下构建本地sesESTDB数据库在D:\BLAST\database下构建本地sesNTDB数据库D:\BLAST\database下进行blastn“cls”命令BioEdit软件中的blast程序选择要格式化的数据文件数据库格式化进行中创建的本地数据库在“C:\BioEdit\database\”进入本地blast上载对比(Query)文件选择blast子程序选择对比数据库设定“E”值Blast运行结果另存结果结果查看谢谢!yueguidong@genomics.cn
本文标题:Windows系统下本地blast
链接地址:https://www.777doc.com/doc-1807757 .html