您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > Local BLAST简明教程
LOCALBLAST简明教程简介LocalBlast是Blast的本地化版本,与在线Blast原理相同,主要进行序列间相似性的检索优点:与在线Blast相比,其优点在于速度快,不受网络连接影响,且可进行批处理,数据易于处理。软件准备Blast+下载地址:基于不同操作系统选择不同的安装包,解压安装,通常默认安装到C:\Programfiles,此处可以把C:\Programfiles\NCBI的子文件夹(通常是blast+2.2.23)重命名为blast,方便之后在dos中索引文件夹(可选)PerlforWindows主要用于下载NCBI上已有的构建好的数据库,但主要是人类、小鼠等,对于我们来说不常用下载地址:下载后直接安装即可构建数据库方法一:1.直接下载fasta格式的序列文件序列文件的格式必须为fasta,文件来源不限,如NCBI、JGI等均可,但由于不同数据库中蛋白的ID不同,应结合后期数据分析具体要求进行选择2.在DOS系统中利用makeblastdb.exe构建数据库命令行:$makeblastdb.exe–inprotein.fasta–outprotein_db–hash_index–dbtypeprot要格式化的序列的名称,需要后缀输出的数据库的名称,不需要后缀输出的数据库的类型核酸:nucl蛋白:prot构建数据库如:下载Aspergillusruber基因组蛋白氨基酸序列,构建数据库首先在NCBI上检索该物种基因组构建数据库基因组内共有10066个蛋白构建数据库检索该基因组的蛋白,点击中间列右上角“Sendto”按钮,选择files,选择FASTA格式,创建文件即可构建数据库•将下载的序列重命名(默认下载文件名为sequence.fasta,容易混淆),保持后缀为fasta格式不变,置于blast\bin文件夹中,如果配置了环境变量,可置于任意位置,关于配置环境变量,点击此处。•检查下载的序列是否完整(NCBI连接不稳定,有时候会丢数据),方法如下:用word打开序列文件,在文件内进行查找(快捷键Crtl+F),查找“”,查找结果数量即为下载得到的蛋白序列数量。构建数据库“开始”-“运行”(快捷键Windows键+R)-输入“cmd”,“确认”-进入DOS系统1.打开数据库(即序列文件)所在文件夹;2.输入命令对数据库进行格式化。打开数据库所在文件夹运行命令,对数据库进行格式化格式化成功构建数据库方法二从NCBI中的ftp库下载所需要的数据库,地址:也可安装Perl程序后,运用Blast自带的update_blastdb.pl进行下载进入DOS后,打开Blast下的bin文件夹输入以下指令可以查看帮助(可不做)输入一下指令查看NCBI中的库输入相应的数据库名称进行下载,此方法下载得到的数据库不需进行格式化,以载体库(vector)为例准备待比对序列直接从NCBI上下载FASTA格式的序列即可,与数据库存放于同一位置(通常为Blast的bin文件夹下)如果需要批处理(即将多个序列与数据库进行比对),可将其多个序列文件整合成一个fasta文件,此处使用word或写字板均可。序列比对打开数据库及序列所在的文件夹,运行相应的blast命令即可如蛋白序列比对$blastp.exe–queryproteins.fasta–dball_proteins_db–outblast_result.xls可输入blastp–help查看默认输出参数,即参数代码对照如果需要对输出文件输出的参数进行自定义,则增加-outfmt参数如只需要蛋白ID,QueryCover和Identity可增加参数-outfmt“6qaccsaccqcovspident”待比对序列名称,需要后缀数据库名称,不需要后缀结果文件名称,不同后缀可输出不同格式的文件,xls为excel格式,txt、xml等均可序列比对输出格式及参数说明序列比对输出格式及参数说明序列比对输出格式及参数说明TIPS在localblast过程中对文件进行命名时不要出现空格,包括序列、数据库、结果的命名等TheEnd
本文标题:Local BLAST简明教程
链接地址:https://www.777doc.com/doc-3309493 .html