您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 朱瑞新着---计算机辅助药物设计(Ⅱ)--基本方法原理概要与实践详解
如上图4-16所示,删除Outlier后,训练集样本数减少为53,在这个新训练集的基础上重复步骤D,发现此时XR2=0.306414,有了很大提高(上一次XR2=0.033869),但是还不足以进行下一步操作(大于0.5)。继续剔除Outlier!图4-17、第三次训练集自身交叉验证的结果如图4-17所示,重复一次根据剔除Z-SCORE大于2的Outlier后的操作,保存新的数据库为“mytrps-train-refined2.mdb”,得到模型的PLSModel:RMSE=0.143511R2=0.975035XRMSE=1.36198XR2=0.344367,同样尽管有所提高(上一次XR2=0.306414),但是还需进一步提高。图4-18、第四次训练集自身交叉验证的结果81如图4-18所示,根据剔除Z-SCORE大于1.5的Outlier后的操作,保存新的数据库为“mytrps-train-refined3.mdb”,此时,得到模型的PLSModel:RMSE=0.0739945R2=0.993785XRMSE=0.48619XR2=0.770392(0.5),点击“Fit”按钮,将该训练得到的模型保存为trypsinpred.fit,这个模型可以用于下一步的操作。图4-19、图形分析法评估训练集拟合结果利用图形分析法对训练集拟合结果进行评估。具体操作:在“mytrps-train-refined3.mdb”中点击DBV|Compute|Analysis|Correlationplot,回到“mytrps-train-refined3.mdb”数据库,依次点击实验得到的活性数据(pki-trypsin)和预测得到的活性数据($PRED),如上图4-19所示,预测与实际有着很好的线性关系。(5)模型的验证图4-20、Model-Evaluate面板参数设置具体操作:打开测试集样本数据库“mytrps-test.mdb”,并在该数据库中打开Model-Evaluate82面板(DBV|Compute|Model-Evalulate…),在ModelFile中选择前面得到的模型trypsinpred.fit,并设置新生成的字段为“trypsin-pred”,最后点击“OK”,如图4-20所示。图4-21、模型评估操作后测试集样本数据库的变化如上图4-21所示,测试集样本数据库“mytrps-test.mdb”中新增加了一列trypsin-pred,此字段为预测值。图4-22、计算预测值与实验值之差83具体操作:通过计算预测值与实验值差来评估模型的好坏。打开Calculator面板(DBV|Compute|Calculator…),如上图4-22所示计算字段pki-trypsin与字段trypsin-pred之差,并生成新的字段trypsin-res。图4-23、图形分析法评估测试集拟合结果如果偏差的绝对值超过1,即认为该样本的预测值不好,那么如上图4-23所示,31个测试样本中,仅2个样本的预测值不够好,说明测试集的拟合结果符合要求。到此为止,对样本进行拟合得到的模型符合要求,可以利用该模型进行新样本的预测。(6)新样本的预测收集新的3-amidinophenylalanine化合物,利用上面的模型对其活性进行预测。2、非线性模型(Bayesianstatistics)当由于某种原因,活性数据的质量低下,甚至直接为定性数据时,构建非线性模型可能能得到更好的筛选结果。为了方便,这里仍然用上例中的样本。因此步骤(1)-(3)均与上例完全相同。(1)整理含有活性数据的化合物数据库并导入到MOE84图4-24、含有活性数据的化合物数据库具体操作:MOE|File|Open…,打开本书配套光盘中的样本数据库“mytrps.mdb”(共87个样本),如图4-24所示。(2)挑选合适的描述符并计算这里使用PaulLabute提出的通用描述符。图4-25、结构描述符选择与计算85具体操作:在“mytrps.mdb”数据中打开描述符计算面板(DBV|Compute|Descriptor…),依次挑选SMR_VSA0-7、SlogP_VSA0-9和PEOE_VSA+0--6共32个描述符,最后点击“OK”,如图4-25所示。图4-26、结构描述符的计算结果图4-26为上一步骤中所选结构描述符的计算结果,即在样本数据库中新增32列。(3)拆分数据集:训练集和测试集图4-27、DiverseSubset面板参数设置具体操作:利用去空间多样性子集的方法将总样本拆分为训练集和测试集,打开Diverse86Subset面板(DBV|Compute|DiverseSubset…),根据约定,在OutputLimit处设置为56(~65%of87);并在Descriptors一栏中选择刚才计算的32个描述符;最后点击“OK”,如图4-27所示。图4-28、空间多样性子集计算结果如图4-28所示,在“mytrps.mdb”数据库中新增一列$DIVPRIO,该列记录的是根据空间多样性对总样本的排序号。图4-29、根据空间多样性子集计算结果划分训练和测试集具体操作:按$DIVPRIO列的顺序排序(Popup|SortUp),然后分别选择前面56个样本保存87为“binary-trian.mdb”,选择后面31个样本保存为“binary-test.mdb”,注意:要在ExportMolecularDatabase中勾选“SelectedEntriesOnly”,如图4-29所示。(4)活性数据转换图4-30、活性数据转化具体操作:利用Calculator面板,将原始活性数据转换成0、1二元型。在样本数据库“binary-train.mdb”中打开Calculator(DBV|Compute|Calculator…),将数据库中原始活性数据字段与特定阈值进行比较(这里假设pki为6.1是活性阈值),并设DestinationField为activity,最后点击“Evaluate”,如图4-30所示。图4-31、转化后的训练集数据库88如图4-31所示,在“binary-train.mdb”数据库新增如上图所示activity一列,这是转化后的活性数据。(5)构建非线性模型图4-32、QuaSAR-Model面板参数设置及所得模型的结果具体操作:同上例一样,打开QuaSAR-Model构建模型(DBV|Compute|QuaSAR-Model…),将ActivityField设置为刚才转化得到的activity;Method设置为Binary;在Descriptor中选择计算好的32个描述符,点击“Fit”;点击Validate,勾上所有选项,最后点击“OK”;得到BinaryModelA=0.964A0=1.000A1=0.926XA=0.821XA0=1.000XA1=0.630,如图4-32所示。注意:其中A表示模型的总准确率;A0表示无活性样本的准确率;A1表示活性样本的准确率;那么上面这个结果表明此模型的无活性样本准确率高达100%,活性样本的准确率为63%,这个结果是符合药物设计的期望:即能将无活性的样本尽量排除,在此前提下,活性样本的准确率越高越好。因此可以将此模型保存下来。具体操作:QuaSAR-Model面板中点击“Save”将上面模型保存为binary.fit用于后续操作。89图4-33、直接设置活性阈值取代预先进行活性值转换具体操作:如果在QuaSAR-Model面板中将BinaryThreshold设置为特定的阈值(这里设置为6.1),那么将ActivityField设置为原始活性值pki-trypsin能得到一样的结果,如图4-33所示。(6)模型的验证如步骤(4)一样,将样本测试集“binary-test.mdb”的原始活性值转换成二元型数据(此处操作省略,请参照步骤(4))。图4-34、Falsenegative判定具体操作:计算Falsenegative:(DBV|Entry|Select)orwhereactivity=1-Apply;90(DBV|Entry|Select)andwherebinary-activity=0-Apply,如上图4-34所示,本例选中了13个样本,表示21个正样本中有13个样本判断成阴性样本。图4-35、Falsepositive判定具体操作:计算Falsepositive:(DBV|Entry|Select)orwhereactivity=0-Apply;(DBV|Entry|Select)andwherebinary-activity=1-Apply,如上图4-35所示,本例选中了0个样本,表示10个负样本中有0个样本判断成阳性样本。以上结果表明测试集的拟合结果符合要求。到此为止,对样本进行拟合得到的模型符合要求,可以利用该模型进行新样本的预测。(7)新样本的预测收集新的3-amidinophenylalanine化合物,利用上面的模型对其活性进行预测。五、知识拓展(一)SAReport(Structure-ActivityReport)这是MOE2008版本新增的一个功能。它是一个以网页形式提供交互操作的模块。它是一个通过检测样本的公共骨架,而判断不同取代基与不同的骨架之间的关系,如果提供这些样本的活性数据,则SAReport就类似一个图形化的QSAR。下面我们就以本章中所用到的样本数据来展示SAReport的操作。(1)打开样本数据库及SAReport面板91图4-36、DatabaseViewer面板中的SAReport菜单具体操作:在样本数据库“mytrps-train.mdb”中打开SAReport面板,DBV|Compute|SAReport…,如图4-36所示。图4-37、Structure:ActivityReport面板参数设置92具体操作:由于这个样本数据库中包含有样本的活性值(pki-trypsin),在Structures:ActivityReport面板中Fields,将pki-trypsin相应的设置为活性值(在Fields中name一列选中pki-trypsin,然后在Fields下面点击“pKi/pIC50”,则Fields中与pki-trypsin对应的“style”就变为pKi/pIC50);最后点击“Produce”,如图4-37所示。(2)SAReport结果展示图4-38、SAReport结果展示图4-38为SAReport结果的展示界面,它以网页的形式展示样本的结构与活性关系。图4-39、SAReport中的Suggestions菜单93具体操作:点击SAReport结果网页上的Suggestions菜单,可以看到SAReport给出的预测结果,这个对于合成工作者显得非常直观,其中百分数形式的值表示活性提高的概率,括弧里的值则表示权重,如图4-39所示。(二)AutoGPAAutoGPA是MOE2009版本推出的一个新功能。该功能是基于Cramer在1988年提出的风靡一时的比较分子场算法(ComparativeMolecularFieldAnalysis,CoMFA)开发的,到此为止,MOE软件就涵盖了所有典型的定量构效关系研究算法和图形化工具。(三)两套常用结构描述符1、PaulLabute提出的通用描述符参考文献:该套描述符从范德华表面积、疏水性、分子折射率和部分电荷四个方面对化合物进行描述:A、SlogP_VSAk(共10个),疏水性B、SMR_VSAk(共8个),极化率C、PEOE_VSAk(共14个),静电作用其中范德华表面积是疏水性、分子折射率和部分电荷的载体,该套描述符共32(10+8+14)个。2、徐俊等人开发的Drug-LikeIndex一套描述符参考文献:'Drug-likeIndex:ANewApproachToMeasu
本文标题:朱瑞新着---计算机辅助药物设计(Ⅱ)--基本方法原理概要与实践详解
链接地址:https://www.777doc.com/doc-5064637 .html