您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > ncbi使用技巧,spss使用指南
生物信息技术应用分子序列比对分析Sequencealignment安徽大学生命科学学院Contents序列数据库142成对序列比对与BLAST工具3多重序列比对与Clustal工具序列比对的应用安徽大学生命科学学院序列数据库1基本类型:初级数据库收录、存储序列的基本数据资源,如核酸(蛋白质)序列、蛋白质空间结构及基因组信息。次级数据库在初级库资源基础上进行整理和标注,为特定专业领域服务的派生数据库,如表达序列标记、微列阵(基因芯片)、代谢和信号途径、遗传疾病数据库、免疫数据库等等。安徽大学生命科学学院核酸序列数据库以核苷酸顺序及注释信息为基本内容的数据库世界三大核酸数据库1.GenBankinUSA()2.EMBLinEurope()3.DDBJinJapan()1998年,GenBank,EMBL,DDBJ共同成立国际核酸序列数据库协会(INSDC,),实现了全球范围内的核酸序列的同步更新和交换互享。安徽大学生命科学学院蛋白质序列数据库以蛋白质氨基酸顺序及注释信息为基本内容的数据库世界主要蛋白质序列数据库(1)PIR-PSD(Proteininformationresource-proteinsequencedatabase)foundedbyNBRFofUSA(美国国家医学研究基金会)in1984()1988年,日本国际蛋白质信息库(JIPID)和德国慕尼黑蛋白质序列信息中心(MIPS)加入PIR,合作成立了国际蛋白质信息中心(PIR-International)。PIR为较全面和权威注释的蛋白质数据库,具有非冗余、高质量注释和分类全面等特点。安徽大学生命科学学院蛋白质序列数据库世界主要蛋白质序列数据库(2)SwissProt1986年始创于瑞士日内瓦大学,现由瑞士生物信息学研究所(SIB)和欧洲生物信息学研究所(EBI)共同管理和维护。()SwissProt数据库的特点:所有序列条目经过专家核实,可靠性与可信度高;注释详细,包括蛋白质的功能、序列及结构域的结构、翻译后修饰及其位点、突变体等安徽大学生命科学学院蛋白质序列数据库世界主要蛋白质序列数据库(3)TrEMBL(translationofEMBL)建立于1996年,是从EMBL中的cDNA序列翻译得到的蛋白质数据库。相似的还有GenPept(GenBank)数据库。TrEMBL、GenPept数据库的特点:序列条目来自核酸序列库的翻译,即时性强;但未经专家的注释、分析和核实,因而错误率和冗余度都较高。安徽大学生命科学学院蛋白质序列数据库全球统一的蛋白质序列与功能数据库UniProt(UniversalProteinResource,通用蛋白质资源)()2002年,PIR、SIB、EBI合并了分属其下的PIR-PSD、Swiss-Prot和TrEMBL数据库,形成了统一的蛋白质数据库UniProt截止2008年8月,UniProt共收录蛋白质序列6,462,751个安徽大学生命科学学院生物大分子结构数据库以生物大分子各原子空间信息为基本内容的数据库给定序列的蛋白质如何折叠为稳定、具一定生物功能的三维结构?信息来源:对蛋白质晶体的X射线衍射、核磁共振及冷冻电镜分析主要数据库:美国Brookhaven国家实验室的PDB(ProteinDataBank,1971年成立)联合MSD-EBI、PDBj,于2003年组建全球共享的worldwidePDB(wwPDB)()截止2008年8月,共收录蛋白质结构52684个ResearchCollaboratoryforStructuralBioinformatics安徽大学生命科学学院GenBankNationalCenterforBiotechnologyInformation(NCBI)NationalLibraryofMedicineNationalInstitutesofHealth安徽大学生命科学学院GenBank全球著名的生物信息综合数据库GenBank(1982年成立)包含所有已知的核苷酸及蛋白质序列以及与之相关的生物学信息和参考文献,现由美国生物技术信息中心(NCBI,成立于1988年)管理维护,是世界上的权威序列数据库。数据库序列的来源为作者直接递交或间接查寻文献所得,并与世界上其他公开发行的数据库,如EMBL,DDBJ交换每日更新的数据。安徽大学生命科学学院GenBankGenBank核酸数据库的增长(1982-2008)截止2008年2月,GenBank共收录核酸序列近8300万条,约860亿碱基对,来自26万余种生物安徽大学生命科学学院GenBank安徽大学生命科学学院NCBI数据库检索系统EntrezEntrez为基于万维网的NCBI数据库检索系统,通过输入关键词,运用布尔算符,可在NCBI所有数据库中进行文本搜索。安徽大学生命科学学院NCBI数据库检索系统Entrez点击进入Entrez主页Entrez为基于万维网的NCBI数据库检索系统,通过输入关键词,运用布尔算符,可在NCBI所有数据库中进行文本搜索。安徽大学生命科学学院NCBI数据库检索系统Entrez安徽大学生命科学学院Entrez应用举例检索主题:小鼠(mouse)转录因子(TF)--E2FmRNA的核酸序列检索过程:NCBI主页AllDatabases在Search对话框输入关键词”E2F”,点”Go”输出检索结果。安徽大学生命科学学院Entrez应用举例输出相关序列3784条,有待进一步筛选:限制物种来源(小鼠Musmusculus)、限制分子为mRNA(排除未经实验验证的预测序列)。安徽大学生命科学学院Entrez应用举例最后命中168条,从中选中NM_148952,以待详细分析。直接进入序列文件,或点”reports”,可选”Graphic”图形显示安徽大学生命科学学院Entrez应用举例NM_148952:小鼠E2F转录因子-4。安徽大学生命科学学院序列文件格式:FASTA格式GI号登录号名称标题行序列行1.标题行:文件的第一行,以大于号“”开始,不换行。内容可自定义,包括基本信息和简单注释;2.序列行:文件第二行起至结束,中间不得有空格。FASTA为最简单的序列(核酸或蛋白质)格式安徽大学生命科学学院序列文件格式:GenBank格式GenBank格式注释信息丰富全面,属文本文件,包括4部分:1.头部:含名称、定义、识别码、物种来源等基本信息;2.引文区:含相关文献信息。3.序列特征表:含序列的编码区、非编码区、功能域、修饰或突变位点、翻译序列等众多注释信息4.序列区:序列本身头区安徽大学生命科学学院GenBank格式Locus行信息:1.Locusname;2.Sequencelength;3.TypeofMolecule:DNA,mRNA,cDNA4.Taxonomy:PRI–primate(灵长类)、ROD–rodent(啮齿类)、MAM-othermammalian(其它哺乳类)、VRT-othervertebrate(脊椎动物)、INV–invertebratesequences、PLN-plant,fungal,andalgal;BCT-bacterial;VRL-viral,PHG-bacteriophage,SYN-synthetic;UNA-unannotated;EST-expressedsequencetags…5.Date:上传或最近修改时间安徽大学生命科学学院GenBank格式引文区安徽大学生命科学学院GenBank格式序列特征表区安徽大学生命科学学院GenBank格式序列区//序列以“//”为结束标志安徽大学生命科学学院成对序列比对与BLAST工具序列比对概念:通过比较两个或两个以上的核酸(蛋白质)序列,显示其中相似的结构区域。成对序列比对(pairwisesequencealignment)多重序列比对(multiplesequencealignment)功能:(1)“相似”的序列“相似”的三维结构;(2)“相似”的序列“相似”的功能;(3)“相似”的序列共同的进化起源2序列比对是序列分析(结构、功能与进化关系)的基础安徽大学生命科学学院序列比对相关概念相似性(Similarity):序列间相同碱基或氨基酸残基所占比例的高低,是直观的数量关系,是序列间匹配程度的直接测度。同源性(Homology):核酸或蛋白质序列间具有共同起源,是依据进化事实的因果判断。直系同源(orthology):经由物种分离事件形成的存在于不同物种中的结构及功能相似的序列旁系同源(paralogy):经由基因复制而演化形成在同一生物体的一系列结构及功能相似的序列序列的相似与序列的同源之间无必然的因果关系(相似并不一定同源),但存在一定的相关性(足够的相似性往往意味着同源关系的存在)安徽大学生命科学学院成对序列比对用于两个核酸(蛋白质)序列间相似性比较,是生物信息学的基本技术,是多重比对的基础。Theprocessoflininguptwosequencestoachievemaximallevelsofidentity(orconservation,inthecaseofaminoacidsequences)forthepurposeofassessingthedegreeofsimilarityandthepossibilityofhomology.DNA、蛋白质序列比对Query:181catcaactacaactccaaagacacccttacacccactaggatatcaacaaacctacccac240|||||||||||||||||||||||||||||||||||||||||||||||||||||||Sbjct:189catcaactgcaaccccaaagccacccct-cacccactaggatatcaacaaacctacccac247RBP:26RVKENFDKARFSGTWYAMAKKDPEGLFLQDNIVA59+K+++++GTW++MA+L+Aglycodelin:23QTKQDLELPKLAGTWHSMAMA-TNNISLMATLKA55安徽大学生命科学学院成对序列比对全局比对(globalalignment)比较结果包含所比较序列全长范围内所有位点的比对,适用于整体相似水平高的同源序列,在分子系统学中常用。局部比对(localalignment)仅对相似水平较高的局部片段进行比对,多用于分子结构和功能域研究。SeqASeqBSeqASeqB安徽大学生命科学学院成对序列比对举例视黄醇结合蛋白(RBP)与水解牛乳蛋白(β-lactoglobulin)的比对结果完全相同区部分相似区identitySimilarityGap间隔安徽大学生命科学学院成对序列比对完全匹配(completematch)部分匹配(partialmatch)对于蛋白质序列而言,不同但性质(size,charge,hydrophobicity,andpolarity)相近的氨基酸常具有相似的功能。碱性aa、酸性aa、中性-非极性aa、极性aa空位(gap)源于序列片段的插入或缺失(insertionordeletion)序列比
本文标题:ncbi使用技巧,spss使用指南
链接地址:https://www.777doc.com/doc-4469523 .html