您好,欢迎访问三七文档
实习一基因组数据注释和功能分析实习一基因组数据注释和功能分析实习二核苷酸序列分析实习三芯片的基本数据处理和分析实习四蛋白质结构与功能分析实习五蛋白质组学数据分析实习六系统生物学软件实习课程内容基因组学转录物组学蛋白质组学系统生物学1.通过序列比对工具BLAST学习,了解蛋白编码基因的功能注释原理2.介绍多序列联配工具ClustalX3.分子进化分析软件MEGA4的基本知识,掌握系统发生树绘制的基本方法序列比对的进化基础•什么是序列比对:–将两个或多个序列按照最佳匹配方式排列在一起。–对应的相同或相似的符号排列在同一列上。–错配与突变相应,空位与插入或缺失对应。•序列比对的目的:–从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系–通过判断两个序列之间的相似性来判定两者是否具有同源性•相似性:可以被数量化,如:序列之间相似部分的百分比•同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断BLAST•基本局部比对搜索工具(BasicLocalAlignmentSearchTool)•NCBI上BLAST服务的网址:••NCBI上blast程序的下载:•ftp.ncbi.nlm.nih.gov•/blast/executables/release/•NCBI的BLAST数据库下载网址:•选择物种选择blast程序QuerySequenceAminoacidSequenceDNASequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslatedTranslated程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白质数据库使用取代矩阵寻找较远的关系,进行SEG过滤blastnNucleotideNucleotide比较核酸序列与核酸数据库寻找较高分值的匹配,对较远的关系不太适用blastxNucleotideProtein比较核酸序列理论上的六个读码框的所有转换结果和蛋白质数据库用于新的DNA序列和ESTs的分析,可转译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸序列数据库,动态转换为六个读码框的结果用于寻找数据库中没有标注的编码区,可转译数据库序列tblastxNucleotideNucleotide比较核酸序列和核酸序列数据库,经过两次动态转换为六个读码框的结果转译搜索序列与数据库序列以Blastx为例:目标序列为ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC6个读码框翻译5’端到3’端第一位起始:ATGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第二位起始:TGAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC第三位起始:GAGTACCGCTAAATTAGTTAAATCAAAAGCGACCAATCTGCTTTATACCCGC3’端到5’端第一位起始:GCGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第二位起始:CGGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT第三位起始:GGGTATAAAGCAGATTGGTCGCTTTTGATTTAACTAATTTAGCGGTACTCAT与核酸相关的数据库与蛋白质相关的数据库选择数据库序列或目标序列的GI号以文件格式上传BlastN配对与错配空位罚分BlastP打分矩阵:•PAM30•PAM70•BLOSUM80•BLOSUM62•BLOSUM45PAM模型可用于寻找蛋白质的进化起源,而BLOSUM模型则用于发现蛋白质的保守域。选择打分矩阵(scoringmatrix)ThePAMfamily•Basedonglobalalignments•ThePAM1isthematrixcalculatedfromcomparisonsofsequenceswithnomorethan1%divergence.•OtherPAMmatricesareextrapolatedfromPAM1.TheBLOSUMfamily•Basedonlocalalignments.•BLOSUM62isamatrixcalculatedfromcomparisonsofsequenceswithnolessthan62%divergence.•AllBLOSUMmatricesarebasedonobservedalignments;theyarenotextrapolatedfromcomparisonsofcloselyrelatedproteins.进行比对的数据库图形化结果E值(E-value)表示仅仅因为随机性造成获得这一比对结果的可能性。这一数值越接近零,发生这一事件的可能性越小。上机实习1:网上运行blastx和blastn(NCBIblast网址:)lesson.seq.screen.Contig34TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1.对contig34进行网上blastn(演示),2.blastx(自行操作)比对*由于时间关系,请参见预存结果。本地运行BLAST•下载NCBI上blast程序:•ftp.ncbi.nlm.nih.gov/blast/executables/release/•安装(安装到C:\)•数据库的格式化(formatdb)•程序运行(blastall)登陆NCBI的FTP下载blast程序双击安装到C盘产生三个文件夹•bin•data•doc将数据库文件(db)及目标序列文件(in)保存在Blast/bin文件夹下•bin含可执行程序(将数据库及需要比对操作的数据放入该文件);•data文件夹含打分矩阵及演示例子的序列数据信息;•doc文件夹含关于各子程序的说明文档。本地数据库的构建•查看db文件由fasta格式的序列组成数据库的格式化formatdb命令用于数据库的格式化:formatdb[option1][option2][option3]…formatdb常用参数-idatabase_name需要格式化的数据库名称-pT\F待格式化数据库的序列类型(核苷酸选F;蛋白质选T;默认值为T)例:formatdb-idb-pT对蛋白质数据库“db”进行格式化程序运行blastall命令用于运行五个blast子程序:blastall[option1][option2][option3]*可在dos下输入blastall查看各个参数的意义及使用•blastall常用参数四个必需参数-pprogram_name,程序名,根据数据库及搜索文件序列性质进行选择;-ddatabase_name,数据库名称,比对完成格式化的数据库;-iinput_file,搜索文件名称;-ooutput_file,BLAST结果文件名称;两个常用参数-eexpectation,期待值,默认值为10.0,可采用科学计数法来表示,如2e-5;-malignmentviewoptions:比对显示选项,其具体的说明可以用以下的比对实例说明例:blastall-pblastx-ddb-iin-oout-e2e-5-m9(表格显示比对结果)采用blastx程序,将in中的序列到数据库bd中进行比对,结果以表格形式输入到out文件上机实习2:本地运行blastx•进入DOS命令行提示符状态(“运行”cmd)•进入C盘“cd\”•进入包含序列数据的bin目录下“cdBlast\bin”•察看目录下内容“dir”•格式化数据库db“formatdb-idb-pT”•运行blastx–“blastall-pblastx-iin-ddb-oout-e2e-5-m9”•察看结果“moreout”或在windows下双击打开输入数据库类型:F/TBlast程序序列输入数据库结果输出输入“cd\”-〉回车回到安装目录C盘输入“cdblast\bin”-〉回车到达blast程序下bin文件夹输入“dir”-〉回车察看bin文件夹下内容bin文件夹下包含以.exe为后缀的程序文件以及这次实习需要用到的数据可文件“bd”和目标序列文件“in”输入“moredb”-〉回车察看db文件内容•空格键翻页•输入“q”跳出输入“formatdb–idb–pT”-〉回车对db数据库进行格式化输入“dir”-〉回车察看bin文件夹下内容格式化以后产生的文件输入“blastall-pblastx-iin-ddb-oout-e2e-5-m9”-〉回车运行blastx程序产生的结果文件“out”用”moreout”察看结果文件不使用–m参数时比对结果显示序列两两比对用”moreout”察看结果文件多序列比对的目的•从物
本文标题:生物信息学经典教程
链接地址:https://www.777doc.com/doc-3621554 .html