您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > BLAST与序列相似性搜索上机
Bioinformatics,2008-2009,June,TMMUBLAST与数据库相似性搜索微生物学教研室邹凌云上机实验一Bioinformatics,2008-2009,June,TMMU教学内容了解常用生物信息学数据库的数据格式理解BLAST的基本原理与基本功能掌握主要生物信息学数据库的访问和数据检索使用BLAST进行相似序列搜索使用BLASTCLUST进行序列相似度聚类Bioinformatics,2008-2009,June,TMMU1342Outline上机实验注意事项操作一:生物信息学数据库访问与数据检索操作二:使用BLAST搜索相似序列操作三:使用BLASTCLUST进行相似序列聚类Bioinformatics,2008-2009,June,TMMU上机操作注意事项遵守计算机机房的各项规章制度服从授课教员与计算机教研室教员的管理和安排按课程要求和教师的规定上机操作,不得在上机过程中浏览与课程内容无关的网站Bioinformatics,2008-2009,June,TMMU理论课内容回顾双序列比对的基本理论与方法BLAST的基本原理去除低复杂度序列构建邻居单词表(种子)在数据库中搜索种子,并延伸获得HSP计算比对分值和统计显著性(E-Value)使用BLAST查询未知序列,确定序列生物学功能使用BLASTCLUST进行序列相似度聚类Bioinformatics,2008-2009,June,TMMU上机内容安排常用生物信息学数据库的访问和数据检索使用BLAST进行相似序列搜索使用BLASTCLUST进行序列相似度聚类Bioinformatics,2008-2009,June,TMMU上机文档下载ftp下载本次课上机文档:上机文档内容:上机内容与操作指南(Word文档)冗余的外膜蛋白数据集:OMP377.txt(FASTA格式)蛋白质三维分子可视化程序RasWin.exe/RasTop超级编辑器UltraEdit.rarBioinformatics,2008-2009,June,TMMU操作一:生物信息学数据库访问和数据检索Bioinformatics,2008-2009,June,TMMUNCBI与Genbank打开NCBI官方网站:观察页面内容,BLAST在何处?Genbank在何处?Bioinformatics,2008-2009,June,TMMUNCBI与GenbankBioinformatics,2008-2009,June,TMMU进入GenbankBioinformatics,2008-2009,June,TMMU进入EntreZBioinformatics,2008-2009,June,TMMU搜索Genbank中的核酸序列试着搜索人血红蛋白beta亚基基因,输入:HBBHuman限定搜索范围:GenbankBioinformatics,2008-2009,June,TMMU搜索结果页面Bioinformatics,2008-2009,June,TMMUmRNA序列存取号基因定义数据库标识符(GI)信息来源:gb_GenBankemb_EMBLdbj_DDBJsp_SWISS-PROTpdb_ProteinDatabasepir_PIRprf_PRFref_RefSeqBioinformatics,2008-2009,June,TMMUmRNA序列内容物种来源特性参考资料座位号Bioinformatics,2008-2009,June,TMMUGenBank的主要字段及其含义字段含义解释LOCUSIdentifier序列名称、性质描述ACCESSIONAccessionnumber序列接受号DEFINITIONDescription序列定义KEYWORDSKeywords关键词SOURCEOrganism(species)来源种属ORGANISMOrganism(classification)来源分类REFERENCEReferencenumber参文条目AUTHORSReferenceauthors参文作者TITLEReferencetitle参文题目JOURNALReferencelocation参文出处COMMENTSDatabasecross-reference交叉索引MEDLINEMedlinenumberMEDLINE号FEATURESFeaturetableheaderdata序列性质表头数据BASECOUNT碱基数目ORIGIN序列开始标志//Terminationline序列终止标志Bioinformatics,2008-2009,June,TMMUmRNA序列内容蛋白质ID源序列Bioinformatics,2008-2009,June,TMMU蛋白质序列内容Bioinformatics,2008-2009,June,TMMUExPaSy与Uniprot打开ExPaSy网站:观察页面内容,寻找Uniprot和BLAST在何处?搜索栏在何处?Bioinformatics,2008-2009,June,TMMUExPaSyBioinformatics,2008-2009,June,TMMUUniprot搜索结果Bioinformatics,2008-2009,June,TMMUP68871内容蛋白质名称基因名称物种来源Bioinformatics,2008-2009,June,TMMU有3D结构Bioinformatics,2008-2009,June,TMMU蛋白质结构数据库PDB登录蛋白质结构数据库PDB网站:观察页面内容,找到搜索栏,统计信息栏Bioinformatics,2008-2009,June,TMMUProteinDataBankBioinformatics,2008-2009,June,TMMUHBB_Human的结构数据1a00Bioinformatics,2008-2009,June,TMMU使用RasMol观察1a00三维结构下载1a00数据文件到本地磁盘解压缩RasTop或安装RasMol,打开1a00文件,观察其结构Bioinformatics,2008-2009,June,TMMU操作二:使用BLAST搜索相似序列Bioinformatics,2008-2009,June,TMMU任务描述某天,Prof.Gene在小鼠(Musmusculus)中又发现了一个与有丝分裂相关的基因,通过DNA测序,得到部分序列:GATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCTBioinformatics,2008-2009,June,TMMU问题:1.这个基因在小鼠中是哪个基因?基因的标识符是什么?这个基因在基因组上的定位是怎样的?2.这个基因在人中的同源物是哪一个?标识符是什么?3.在人中,这个基因标码的蛋白质是什么?具有什么样的功能?细胞亚定位在何处?这个基因是一个酶吗,什么酶?具有什么样的功能结构域?4.这个基因在酵母中保守吗?如果保守,哪个基因是人中的同源物?5.这个基因在人中的同源物,编码的蛋白质有3级结构的信息吗?如果有,给出在PDB中的标识符。Bioinformatics,2008-2009,June,TMMU思路首先在Genbank中搜索该序列的相似序列,判断其来自于那个基因输入文件的FASTA格式:GeneXGATGAGCTGCTTATCCTACAACGAGAAGTCGGACATCTGGTCCTTGGGCTGCCTGCTGTATGAGCTGTGTGCACTAATGCCTCCCTTTACAGCTTTCAACCAAAAAGAGCTAGCTGGGAAAATCAGGGAAGGGAGGTTCAGGCGCATCCCCTACCGCTACTCTGATGGCTTGAATGACCTCATCACTCGGATGCTGAATTTAAAGGACTACCATCGACCTTCAGTGGAAGAAATTCTGGAGAGCCCTTTGATAGCAGACTTGGTTGCAGAAGAGCAAAGGAGAAATCTGGAGAGGAGAGGACGGCGCTCAGGCGAGCCTTCGAAGCTGCCGGACTCCAGCCCTGTGCTGAGCGAGCTCAAGTTGAAGGAAAGGCAACTGCAGGATCGAGAGCAAGCACTCAGAGCTCGGGAGGACATCCTBioinformatics,2008-2009,June,TMMU在GenBank中进行BLAST搜索Bioinformatics,2008-2009,June,TMMU输入序列、选择数据库、搜索参数Bioinformatics,2008-2009,June,TMMU搜索结果图形化描述框Bioinformatics,2008-2009,June,TMMUGeneInfo染色体信息基因名称Bioinformatics,2008-2009,June,TMMU结论1:这个基因是小鼠的Nek2NIMA基因,基因标识符是:NM_010892.3;该基因定位于小鼠的1号染色体,位置:193399659-193737126Bioinformatics,2008-2009,June,TMMU搜索人中的同源基因思路:考虑到蛋白质序列更加保守,因此以小鼠该基因编码的蛋白质序列来搜索人中的相似序列Bioinformatics,2008-2009,June,TMMU获取该基因的蛋白质序列文件Bioinformatics,2008-2009,June,TMMUNIMA蛋白质序列文件Bioinformatics,2008-2009,June,TMMUBLAST搜索Bioinformatics,2008-2009,June,TMMU搜索结果Bioinformatics,2008-2009,June,TMMU人中的同源蛋白Bioinformatics,2008-2009,June,TMMUConservedDomains:S_TKcBioinformatics,2008-2009,June,TMMU发掘人中该同源蛋白的功能思路:获取人中的同源蛋白NP_002488.1的序列,在Uniprot中通过BLAST搜索该蛋白质序列Bioinformatics,2008-2009,June,TMMU蛋白质序列Bioinformatics,2008-2009,June,TMMUExPaSyBLAST搜索Bioinformatics,2008-2009,June,TMMU搜索结果:P51955Bioinformatics,2008-2009,June,TMMU功能描述Bioinformatics,2008-2009,June,TMMU三级结构信息Bioinformatics,
本文标题:BLAST与序列相似性搜索上机
链接地址:https://www.777doc.com/doc-1924065 .html