您好,欢迎访问三七文档
1蛋白质结构预测(一)ProteinStructurePrediction(I)2ProteinStructurePredictionFromSequencetoNativeStructure3ProteinStructurePredictionPSI-BLAST4ProteinStructurePrediction5MultipleSequenceAlignmentTools–ClustalWMultiplesequencealignmentsreveal:–conservationofindividualresidues–conservationofregions–differenceswithinproteinfamilies6Tools–HMMerProfile–Foreachpositionalongthesequence,tabulatehowofteneachtypeofaminoacidoccur(include‘.’forgap)–TheprofileisalwaysofsizeNx21,nomatterhowmanysequencesareconsidered7ProteinStructurePrediction8SecondaryStructurePredictionGivenaproteinsequencea1a2…aN,secondarystructurepredictionaimsatdefiningthestateofeachaminoacidaiasbeingeitherH(helix),E(extendedstrand),orO(other)(Somemethodshave4states:H,E,Tforturns,andOforother).ThequalityofsecondarystructurepredictionismeasuredwithaQindex(Qhelix,Qstrand,Qcoil)orQ3.Q3isthepercentofresiduesthatmatch“reality”(X-raystructure).9SecondaryStructurePredictionAminoacidsequenceActualSecondaryStructureQ3=22/29=76%Q3=22/29=76%ALHEASGPSVILFGSDVTVPPASNAEQAKhhhhhooooeeeeoooeeeooooohhhhhohhhooooeeeeoooooeeeooohhhhhhhhhhhoooohhhhooohhhooooohhhhh(usefulprediction)(terribleprediction)–Q3forrandompredictionis33%–Secondarystructureassignmentinrealproteinsisuncertaintoabout10%.Therefore,a“perfect”predictionwouldhaveQ3=90%.LimitationsofQ3(Q3=Npredicted100%/Nobserved)10SecondaryStructurePredictionChou-FasmanMethod–Startbycomputingaminoacidspropensitiestobelongtoagiventypeofsecondarystructure:–Propensities1meanthattheresiduetypeiislikelytobefoundinthecorrespondingsecondarystructuretype.)()/()()/()()/(iPTurniPiPBetaiPiPHelixiP11Chou-FasmanMethod参数值P、P和Pt是分别在原有相应值的基础上乘以100得到SecondaryStructurePrediction12SecondaryStructurePredictionChou-FasmanMethod–Helixprediction•沿着蛋白质序列寻找螺旋核,相邻的6个残基中如果有至少4个残基倾向于形成螺旋,即有4个残基对应的P100,则认为是螺旋核。•然后从螺旋核向两端延伸,直至四肽片段P的平均值小于100为止。按上述方式找到的片段长度大于5,并且P的平均值大于P的平均值,那么这个片段的二级结构就被预测为螺旋。此外,不容许Pro在螺旋内部出现,但可出现在C末端以及N端的前三位,这也用于终止螺旋的延伸。13SecondaryStructurePredictionChou-FasmanMethod–StrandPrediction•如果相邻6个残基中若有4个倾向于形成β折叠,即有4个残基对应的P100,则认为是折叠核。•折叠核向两端延伸直至4个残基P的平均值小于100为止。若延伸后片段的P的平均值大于105,并且P的平均值大于P的平均值,则该片段被预测为β折叠。14SecondaryStructurePredictionChou-FasmanMethod–TurnPrediction•转角的模型为四肽组合模型,要考虑每个位置上残基的组合概率,即特定残基在四肽模型中各个位置的概率。•在计算过程中,对于从第i个残基开始的连续4个残基的片段,将上述概率相乘,根据计算结果判断是否是转角。如果f(i)×f(i+1)×f(i+2)×f(i+3)大于7.5×10-5,四肽片段Pt的平均值大于100,并且Pt的均值同时大于P的均值以及P的均值,则可以预测这样连续的4个残基形成转角。15SecondaryStructurePredictionChou-FasmanMethod–Conflict假如预测出的螺旋区域和折叠区域存在重叠,则按照重叠区域P均值和P均值的相对大小进行预测,若P的均值大于P的均值,则预测为螺旋;反之,预测为折叠。16SecondaryStructurePredictionGORMethod–是一种基于信息论和贝叶斯统计学的方法–GOR将蛋白质序列当作一连串的信息值来处理–GOR方法不仅考虑被预测位置本身氨基酸残基种类的影响,而且考虑相邻残基种类对该位置构象的影响17SecondaryStructurePredictionGORMethod–通过对已知二级结构的蛋白样本集进行分析,计算出中心残基的二级结构分别为螺旋、折叠和转角时每种氨基酸出现在窗口中各个位置的频率,从而产生一个17×20的得分矩阵。然后利用矩阵中的值来计算待预测的序列中每个残基形成螺旋、折叠或者转角的概率。18SecondaryStructurePredictionGORMethod–首先考虑两个事件S和R的条件概率P(S|R),即在R发生的条件下,S发生的概率–P(S,R)是同时观察到S和R的联合概率,而P(R)是R的出现概率。–在二级结构预测过程中,S表示特殊的二级结构类型,R代表氨基酸残基,P(S|R)就是残基R处于二级结构类型S的概率。P(S)是在统计过程中观察到二级结构类型S的概率。–Statistics:•helices29.7%,strands19.7%,turns12.2%,coils38.3%19SecondaryStructurePredictionLimMethod–氨基酸的理化性质对二级结构影响较大–在进行结构预测时考虑氨基酸残基的物理化学性质。如疏水性、极性、侧链基团的大小等,根据残基各方面的性质及残基之间的组合预测可能形成的二级结构。–“疏水性”是氨基酸的一种重要性质,疏水性的氨基酸倾向于远离周围水分子,将自己包埋进蛋白质的内部。20SecondaryStructurePredictionLimMethod–Helixprediction•在一段序列中发现第i、i+3、i+4位(如1、4、5)是疏水残基时,这一片段就被预测为螺旋;•当发现第i、i+1、i+4位(如7,8,11)为疏水残基时,这一片段也被预测为螺旋。21SecondaryStructurePredictionLimMethod–Strandprediction•对于折叠,也存在着一些特征的亲疏水残基间隔模式,埋藏的β折叠通常由连续的疏水残基组成,一侧暴露的折叠则通常具有亲水-疏水的两残基重复模式。–原则上,通过在序列中搜寻特殊的亲疏水残基间隔模式,就可以预测螺旋和折叠。22SecondaryStructurePredictionNeuralNetwork–用于蛋白质二级结构预测的基本神经网络模型为三层的前馈网络,包括输入层、隐含层以及输出层。23NeuralNetwork–预测结果是窗口所取的输入样本中心的残基所在位置的二级结构。例如:PatternLSADQISTVQASFDKTargetH–沿蛋白质的氨基酸序列依次取一定大小的窗口,将窗口内的序列片段进行编码,窗口包括中心氨基酸残基及左右m个(共2m+1个)残基,每一个残基用21个神经元编码,因此,输入层共有21×(2m+1)个神经元。例如:Alanine100000000000000000000–输出层有3个神经元,分别对应于窗口中心残基的H、E、C三态。结果由三个输出中值最大的那个决定。例如:输出值为(0.2,0.1,0.1),则认为是螺旋结构。编码为:100SecondaryStructurePrediction24NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)SecondaryStructurePrediction25NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)–Input26NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)–FirstLayer27NeuralNetwork–PHDsec(Profile-fedneuralnetworksystemfromHeidelberg)–SecondLayer28SecondaryStructurePredictionDSSP(DatabaseofSecondaryStructureinProteins)•H=alphahelix•B=residueinisolatedbata-bridge•E=extendedstrand,participatesinbetaladder•G=3/10helix•I=pihelix•T=hydrogenbondedturn•S=bend29SecondaryStructurePredictionAlphahelix,3/10helixandpihelix–Alphahelix•Hydrogenbonds(i,i+4)•3.6residues/turn;5.4Å/turn•Mosthelices–3/10helix•Hydrogenbonds(i,i+3)•3.0residues/turn;•~4%ofallhelices–Pihelix•Hydrogenbonds(i,i+5)•4.2residues/turn;•Instable30第三讲思考题分别列出以下分子的化学键、键角和二面角丁烷、正丁烯、苯乙烯、乙醇、乙酸乙酯、丙氨酸、雌二醇Paracetamol,L-dopa
本文标题:药物分子设计第九讲
链接地址:https://www.777doc.com/doc-3667284 .html