您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 畜牧/养殖 > 华中农业大学《生物信息学》讲义
生物信息学2005-1-生物信息学王石平(华中农业大学生命科学技术学院)2005.2.23211.69.135.104/bio-informatics.files/bio-infor.htm一、数据库1.核苷酸数据库GenBank、EMBL、DDBJ(在使用方法和连接的数据库上有差异,但数据量相同。)注:氨基酸序列是非试验来源,为推倒的结果。使用时要谨慎!!!!)(1)GenBank(NCBI)数据解释。注:Display中选FASTA形式,显示原始的核苷酸数据,便于复制。每条序列的3种编号(identifier)无意义)定义(描述)版本X.Y1.位点名(基本2.注册号3.Geninforidentifier(GI号)6位(X12345)或8位数字(XY123456);例外:自编号(一般为基因组序列)物种类型一般与AccessionNO.相同(今6位型:属+种+X123458位型:与AC相同10位数:早期8位数:现注:NID(NucleotideID)1999.12取消,改用序列的数据可以更改,GI号、NID号变化,但AC号不变。GI号。Codingsequence谨慎使用!!!!最后一条Reference序列提交者的文章为。可以知道这一基因的研究历史,便于研究。生物信息学2005-2-(2)dbESTEST来源于mRNA-基因片度(300-400bp,数据长度足以分析编码的产物)或者全基因(已知)-5’端或3’端的cDNA序列(EST)-300-400bpsingle-passsequence(可能有误,如果要求0.1%的错误率,需要测序8-10次)-GenBank中71%以上的是EST序列。(3)UniGene来源于同一基因的非重复EST,组成基因序列群(contig)注:不同实验室各自采用poly(T)15法和随机引物合成的cDNA(不完整),不同的cDNA的加工、拼接,形成重叠群(Contig)(4)dbSTS(sequencetaggedsites)a.短序列(200-500bp)b.已完成染色体上的定位c.可以与电子PCR相连用(5)dbGSS(genomesurveysequence)a.基因组短序列b.cosmid、BAC、YAC外源插入片断末端序列c.AluPCR序列(6)HTG(high-throughputgenomesequence)尚未完成测序的重叠群(2kb)更新快!!!(7)dbSNP每100-300bp有一个SNP(8)EMBL(9)DDBJ(10)EPD(EukaryoticPromoterDatabase)启动子数据库.蛋白质数据库(1)SWISS-PROT有详细的注释序列;与44个数据库相互参照(cross-reference)(2)TrEMBL(translationofEMBL)(3)PIR(Promoterinformationresource)表明了结构域(4)PRF(Promoterresearchfoundation)(5)PDBSTR(Re-organizedProteindataBank)蛋白质的二级结构、α-碳位置(6)Prosite蛋白质家族、结构域生物信息学2005-3-3.结构数据库(1)PDB(ProteinDataBank)(2)NDB(NucleicAcidDatabase)(3)DNA-bindProteindatabase(4)swiss-3DIMAGE.酶和代谢数据库(1)KEGG(KyotoEneyclopedinofgenes&genemes)(2)PKR(ProteinKinaseResource).文献数据库(1)PubMed(2)OMIM(3)Agricola农业相关的文献6.提交数据GenBankBankIt提交网上直接提交,立即得到临时编号(1周内提供AceesionNo.)SequIn提交下载软件填写表格,自动确定CDS、ORF和查找重复序列、查载体序列用Update功能修改二、检索数据库的方法1、用关键词或词组进行的数据库检索Text-baseddatabasesearching2、用和甘肃或蛋白质序列进行的数据库检索Sequence-baseddatabasesearching关键词:名词;描述性词、词组;Accessionnumber体系:Entrz;Sequenceretrievalsystem(SRS);Integrateddatabaseretrievalsystem(DBGET)检索须知1、连接词:ANDORNOT用引号将两个词组成一个词组“diseaseresistance”表示必须两个词先后顺序连续出现diseaseresistance表示默认AND2、wildcard“*”放在单词后使检索范围扩大,但是专一性降低Wan*=所有以Wan开头的单词enzyme*=enzyme+enzymes单复数同(1)Entrz(NCBI)优点:三种检索体系中最容易操作的;缺点:检索范围有限8大类29个与Entrz体系相连的数据库1、Nucleiotidesequencedatabase(6)GenBank;SNP;Gene;Homologene;UniSTS;ProSet生物信息学2005-4-2、Proteinsequencedatabase(1)Proteins3、Structuredatabase(4)Structure;PubChem;Compound;3D-Domain;CDD4、Taxonomydatabase(1)Taxonomy5、Genomedatabase(2)Genomes;GenomeProject6、Expressiondatabase(4)UniGene;GEOProfiles;GEOdatabase;GENSAT注:数据库来源于mRNA-cDNA-protein(更确切)7、Literaturedatabase(7)PubMed(文摘);PubMedcentral(全文);Books;OMIM;Journals;NLMcatalog;MeSH8、OthersPubChemsubstance;Cancerchromosome;PubChemBioAssay;SiteSearch检索方法:a、数据库间的检索b、选择数据库(可以限定检索内容和时间范围)(2)SRS(SequenceRetrievalSystem)有不同的版本,可以下载。EBI优点:检索面宽缺点:检索复杂17大类194个数据库与SRS体系相连检索方法:a、快速检索(操作简单,检索的数据库有限,适用于明确目标的检索。)b、深入检索(检索稍微复杂,检索全部的数据库,适用范围广泛的检索。)(3)DBGET优点:与KEGG相连,操作较SRS简单缺点:检索面较窄检索方法:a、Basicsearchb、Advancedsearch三、核苷酸和蛋白质序列为基础的数据库检索Sequence-baseddatabasesearching1、序列对位排列(sequencealignment)2、将两条或多条序列对位排列,突出相似的结构区域(分析功能、分析物种进化、检测突变,插入或缺失、序列延长、序列定位、基因表达谱分析)3、序列对位排列分析种类a、序列对库对位排列分析(从数据库中寻找同源序列,主要涉及核苷酸库和蛋白质库)b、两序(多序列)列对位排列分析(一)序列对位排列分析的基本原理1、记分矩阵(scoringmatrix)a、蛋白质序列对位排列分析记分复杂b、一致氨基酸记分不同稀有氨基酸分值高,普通氨基酸分值低c、相似氨基酸也积分,如D-E用“+”表示氨基酸残基性质相似2、空位(间隔)罚分(gappenalty)基因进化过程中产生突变(插入、缺失)序列对位排列分析是允许插入空位空位罚分涉及两个参数:空位开放(gapopening)空位延伸(gapextension)(二)序列对库对位排列分析对待分析的序列对库进行相似性分析;重复许多次的两序列对位排列分析;从数据库找出所以的同源序列主要检索体系:BLAST、FASTA、Blitz生物信息学2005-5-1、基本概念a、sequenceidentity两序列在同一位点核苷酸或氨基酸残基完全相同sequencesimilarity(oropositive)两序列在同一位点核苷酸或氨基酸残基化学性质相似b、Globalalignment完整的序列比较Localalignment两序列相似程度最高的片断相比较c、Gappedalignment为达到最佳alignment序列中加入空位Ungappedalignment相比较的核苷酸或氨基酸残基连续d、Alignmentscore衡量两相比序列相似程度的标准E(expect)value期望得到的,完全由机会造成的,相当于或大于目前分值的alignment次数Rawscore原始分,分值较大,两个比较序列相似性程度较大Bitscore采用统计学方法以原始分为基础计算E=10;表示方法5e-46=5×10-46E越小越好可以接受的标准:E=10-5(重叠位置40bp;identity94%;远大于杂交标准)E=10-30基因组分析,功能与序列中相似E取决于alignment分值,相比较序列的长短和库中数据数量e、Low-complexityalignmentregion(LCR)核苷酸序列中短的重复序列或由少数几种核苷酸或氨基酸残基组成的序列(如polyA)数据库中半数以上的序列至少带有一处LCR序列alignment应避免LCR相互配对得分BLAST用Filter功能避免比较LCR用X和N分别代表LCR中的每个氨基酸残基和核苷酸2、BLAST(BasicLocalAlignmentSearchTool)(1)NucleiotideBlast(Blastn)
本文标题:华中农业大学《生物信息学》讲义
链接地址:https://www.777doc.com/doc-3334067 .html