您好,欢迎访问三七文档
当前位置:首页 > 行业资料 > 其它行业文档 > 30生物信息学 第七章:序列比对和数据库搜索
第七章:序列比对和数据库搜索GregoryD.SchulerNationalCenterforBiotechnologyInformationNationalLibraryofMedicine.NationalInstitutesofHealthBethesda.Maryland引言在生物学的研究中,有一个常用的方法,就是通过比较分析获取有用的信息和知识。达尔文正是研究比较了galapagosfinches同其它一些物种的形态学特征,从而提出了自然选择学说。今天,我们对基因和蛋白质序列进行比较,从本质上来讲是同达尔文一样,进行同样的分析,只不过更加精细,更加详尽。在这个意义上,我们从核酸以及氨基酸的层次去分析序列的相同点和不同点,以期能够推测它们的结构、功能以及进化上的联系。最常用的比较方法是序列比对,它为两个或更多个序列的残基之间的相互关系提供了一个非常明确的图谱。在这一章,我们只讨论一下双重比对,即只比较两个序列,至于较多的序列即多序列比对,将在第八章介绍。七十年代以来,DNA测序方法的飞速发展,极大地引发了序列信息量的扩增,从而使可供比较的序列数量呈现爆炸式增长。分子生物学家应该意识到,将未知序列同整个数据库中的已知序列进行比较分析已经成为他们手中一个强有力的研究手段。在过去的三十年里,即使不提及计算机的应用,序列比较的各种算法也已经发展得越来越迅速,也越来越成熟,已经能够跟上序列数据库增长的步伐。今天,我们已经拥有一些小的模式物种的基因组的全序列,还拥有人类基因序列的一些较大的样品,我们已经进入比较基因组时代,也就是说,对两个物种进行全基因组序列比较已经不再是一个梦想。序列比对的进化基础进行序列比对的目的之一是让人们能够判断两个序列之间是否具有足够的相似性,从而判定二者之间是否具有同源性。值得注意的是,相似性和同源性虽然在某种程度上具有一致性,但它们是完全不同的两个概念。相似性是指一种很直接的数量关系,比如部分相同或相似的百分比或其它一些合适的度量,而同源性是指从一些数据中推断出的两个基因在进化上曾具有共同祖先的结论,它是质的判断。基因之间要么同源,要么不同源,绝不象相似性那样具有多或少的数量关系。如图7.1所示,比较家鼠和小龙虾的同源的胰蛋白酶序列,发现它们具有41%的相似性。由于受到研究进化关系这一目的的影响,大多数比对方法很自然地都希望能够在某种程度上建立起分子进化的模型。我们通常都假定同源序列是从某一共同祖先不断变化而来,但事实上,我们无法得知这个祖先序列到底是什么样子,除非能够从化石中获得它的DNA,我们所能够做到的只是从现存物种中,探求真相。从祖先序列以来所发生的变化包括取代、插入以及缺失。在理想情况下,同源基因或蛋白质序列在相互比较时,残基之间相互对应,从而使取代的情况很明显地表现出来。在某些位置,一个序列中拥有某些残基而另一个序Bioinformatics:APracticalGuidetotheAnalysisofGenesandProteinsEditedbyA.D.BaxevanisandB.F.F.OuelletteISBN0-471-19196-5.pages145-171.Copyright©1998Wiley-Liss.Inc.列中缺少这种残基,表明这些残基是插入到前者或是从后者中丢失的。这些空位在序列比对时用连续的短线填补。如图7.1,在序列比对中,发现了5个空位。|------S-S-------*|MouseIVGGYNCEENSVPYQVSLNS-----GYHFCGGSLINEQWVVSAGHCYK-------SRIQVCrayfishIVGGTDAVLGEFPYQLSFQETFLGFSFHFCGASIYNENYAITAGHCVYGDDYENPSGLQI*MouseRLGEHNIEVLEGNEQFINAAKIIRHPQYDRKTLNNDIMLIKLSSRAVINARVSTISLPTACrayfishVAGELDMSVNEGSEQTITVSKIILHENFDYDLLDNDISLLKLSGSLTFNNNVAPIALPAQ|----S-S--------|MousePPATGTKCLISGWGNTASSGADYPDELQCLDAPVLSQAKCEASYPG-KITSNMFCVGFLECrayfishGHTATGNVIVTGWG-TTSEGGNTPDVLQKVTVPLVSDAECRDDYGADEIFDSMICAGVPE◇*|-------------S-S------------------|MouseGGKDSCQGDSGGPVVCNG----QLQGVVSWGDGCAQKNKPGVYTKVYNYVKWIKNTIAANCrayfishGGKDSCQGDSGGPLAASDTGSTYLAGIVSWGYGCARPGYPGVYTEVSYHVDWIKANAV--图7.1、保守位点通常在功能上极为重要。对老鼠的胰蛋白酶(Swiss-ProtP07146)和小龙虾的胰蛋白酶(Swiss-ProtP00765)作比对,相同的残基用下标线标出,在比对上方标出的是三个二硫键(-S-S),这些二硫键中的半胱氨酸残基极为保守,打星号的残基的侧链参与电荷传递系统,打菱形符号的活性位点的残基负责底物的特异性。在残基-残基比对中,很明显,某些位置的氨基酸残基相对于其它位置的残基具有较高的保守性,这个信息揭示了某些残基对于一个蛋白质的结构和功能是极为重要的。如图7.1所示,处于活性位点的残基都是极为保守的,比如形成二硫键的半胱氨酸,参与电子传递的氨基酸残基以及决定底物特异性的氨基酸残基。这些保守的残基对于保持蛋白的结构与功能非常重要,另一方面,由于历史原因,某些保守位置对蛋白功能并无太大的重要性。当我们处理非常相近的物种时必须十分小心,因为相似性在某些情况下更多地是历史的反映而不是功能的反映,比如,mouse和rat的某些序列具有高度的相似性,可能仅仅是因为没有足够的时间进行分化而已。尽管如此,系列比对仍然是从已知获得未知的一个十分有用的方法,比如通过比较一个新的蛋白同其它已经经过深入研究的蛋白,可以推断这个未知蛋白的结构与功能的某些性质。必须指出的是,不能够仅仅是通过比较分析这一判据来断定结论是否正确,结论还必须经过实验验证。当我们发现两个基因或蛋白质具有惊人的相似性时,我们会认为他们之间具有一段共同的进化历程,从而我们判断他们会具有相似的生物学功能,但是,这个推断在成为结论之前必须经过实验的验证。例如,ζ-晶状物是脊椎动物眼睛里晶状体基质的组成部分,根据序列相似性的基础,它在E.coli中的同源物是代谢酶苯醌氧化还原酶(如图7.2),不管二者的共同祖先如何,它们的功能在进化中已经改变了(Gonzalezetal.,1994)。这就好象火车变成了铁路餐车,虽然对二者的外部结构的观察揭示了它们结构的历史,但是仅仅根据这一信息往往会得出有关其功能的错误结论。当一个基因适应了一个新的功能时,保守位置通常也会发生一些形式上的变化,比如,当蛋白具有催化功能时,活性为点的残基相当保守,而当蛋白功能改变时,这些残基将会发生漂移。Human-ZCrMATGQKLMRAVRVFEFGGPEVLKLRSDIAVPIPKDHQVLIKVHACGVNPVETYIRSGTYSEcoli-QOR------MATRIEFHKHGGPEVLQA-VEFTPADPAENEIQVENKAIGINFIDTYIRSGLYP..******...*…...**.*..*******Human-ZCrRKPLLPYTPGSDVAGVIEAVGDNASAFKKGDRVFTSSTISGGYAEYALAADHTVYKLPEKEcoli-QOR-PPSLPSGLGTEAAGIVSKVGSGVKHIKAGDRVVYAQSALGAYSSVHNIIADKAAILPAA****..**..**.*****..**.**Human-ZCrLDFKQGAAIGIPYFTAYRALIHSACVKAGESVLVHGASGGVGLAACQIARAYGLKILGTAEcoli-QORISFEQAAASFLKGLTVYYLLRKTYEIKPDEQFLFHAAAGGVGLIACQWAKALGAKLIGTV.****.***...*****.*********.***..**Human-ZCrGTEEGQKIVLQNGAHEVFNHREVNYIDKIKKYVGEKGIDIIIEMLANVNLSKDLSLLSHGEcoli-QORGTAQKAQSALKAGAWQVINYREEDLVERLKEITGGKKVRVVYDSVGRDTWERSLDCLQRR**..*.**.****….***.......**.Human-ZCrGRVIVVG-SRGTIEINPROTMAKES----SIIGVTLFSSTKEEFQQYAAALQAGMEIGWLEcoli-QORGLMVSFGNSSGAVTGVNLGILNQKGSLYVTRPSLQGYITTREELTEASNELFSLIASGVI*..***........*.**..*..*.Human-ZCrKPVIGSQ--YPLEKVAEAHENIIHGSGATGKMILLLEcoli-QORKVDVAEQQKYPLKDAQRAHE-ILESRATQGSSLLIP*.********..*.*.图7.2、最佳全局比对:对人类ζ-晶状物(Swiss-ProtQ08257)和E.coli苯醌氧化还原酶(Swiss-ProtP28304)的氨基酸序列进行比对。这是一个由CLUSTALW程序(Higginsetal.,1996)得到的最佳全局比对结果。在比对下方,星号表示残基相同,打点表示这个残基是保守的。早期的序列比对方法只应用于那些在全长范围内具有简单相似性的一些序列。全序列比对就是对序列进行全程扫描,进行比较。以上讨论的胰蛋白酶和ζ-晶状物之间的比较就属于全序列比对。具有简单的球形结构域的蛋白一般可以使用全序列比对的策略,以为所有的同源序列尚未经过实质上的变化蛋白质的模块性质许多蛋白质在全程范围内并不具有相似性,但却似乎是由众多的模块结构域搭建而成。图7.3描述了这样的一个例子,如图所示的是在血凝过程中的两种蛋白的组成结构,它们是凝血因子XII(F12)和组织型血纤蛋白溶酶原活化因子(PLAT),除了具有丝氨酸蛋白酶活性的催化结构域,这两种蛋白还具有不同数量的其它结构域单元,包括两种纤连蛋白重复,一个类似于上皮生长因子的结构域以及一个成为“kringle”域的单元。这些组分可以以不同顺序反复出现,组分形式的不同通常是由于整个外显子交换引起的。由于全程比对建立时,基因的外显子/内含子结构还没有被发现,因此全程比对并没有顾及到上述现象的重要性,这是可以理解的。在大多数情况下,使用局部比对是较为合理的,这种比对方法可能会揭示一些匹配的序列段,而本来这些序列段是被一些完全不相关联的残基所淹没的,因此,操作者应该明白,如果不恰当地使用了全程比对,很可能会掩埋一些局部的相似性。设计局部比对的另外一个很明显的原因就是在比较一个拼接后的mRNA和它的基因序列时,每个外显子都应该进行局部比对。图7.3、血凝过程中的两中蛋白的模块结构:人类组织血纤蛋白溶酶原活化因子以及凝血因子XII的模块结构的示意图。标记为Catalytic的模块在若干种凝血蛋白中是常见的,F1和F2是较为常见的重复模块,首先在纤连蛋白中被发现。E模块同表皮生长因子极为类似。通常称为”Kringledomain”的模块被标记为K。点阵描述方法之所以广泛流行,其部分原因就在于它能够揭示出拥有多个局部相似性的复杂关系,图7.4就是应用这种处理后的一个例子。图中F12和PLAT蛋白质序列使用DOTTER程序进行比较(软件可见本章结尾列表),其基本思路就是把两个序列分别作为一个二维坐标系中的两个坐标轴,在这个坐标系区域内,如果某一点所对应的横轴坐标和纵轴坐标所对应的两条序列的残基相同,则在这个位置
本文标题:30生物信息学 第七章:序列比对和数据库搜索
链接地址:https://www.777doc.com/doc-4454512 .html