您好,欢迎访问三七文档
当前位置:首页 > 医学/心理学 > 药学 > 支持向量机算法用于拮抗药化合物活性的模式识别
1支持向量机算法用于拮抗药化合物活性的模式识别陆文聪,王焜,陈念贻(上海大学化学系计算机化学研究室,上海,200436)摘要:本工作试用新近提出的、特别适合于小样本多变量训练集的支持向量机(supportvectormachine,简称SVM)算法于复杂药物分子设计。对一批26个处理化疗或放疗呕吐拮抗药的候选化合物筛选数据用留一法判别SVM的预报能力。结果表明:与人工神经网络、最近邻法(KNN)、Fisher法相比,SVM算法可以提供误报率更低的数学模型。关键词:支持向量机算法,QSAR,药物分子设计中图分类号:O06-04SupportVectorMachineAppliedtothePatternRecognitionofActivityofAntagonistsLUWen-cong,WANGKun,CHENNian-yi(DepartmentofChemistry,SchoolofSciences,ShanghaiUniversity,Shanghai200436,China)AbstractInthiswork,therelationshipbetweentheactivityandstructuraldescriptorswasinvestigatedbyusingthesupportvectormachinedevelopedbyVapnik.Forthesamplesetwith26compoundsasantagonists,thecrossvalidationbyleaving-onemethodwasusedtocomparethepredictionabilityofsupportvectormachinemethodwithKNNandFishermethod.ItwasfoundthatthepredictionresultbysupportvectormachinewasbetterthanthatofKNNorFishermethod.KeyWords:antagonist,supportvectormachine,patternrecognition有机分子的结构-活性关系研究是药物分子设计的重要手段。一般用线性回归方法总结各种量子化学、结构化学参数与分子生物活性的关系。但当训练集各分子的结构相差较大时,上述关系有时呈现强非线性。不少作者采用人工神经网络或非线性映照方法作数据处理,如Bienfait将自组织人工神经网络用于QSAR研究[1],Livinstone应用ReNdeR型人工神经网络对复杂分子训练集作非线性二维投影[2],都取得相当的成果。然而,如所周知:对于小样本、多变量的训练集,人工神经网络会产生较严重的过拟合(overfitting)问题,即拟合结果好而预报效果差的问题。而药物分子设计中由于训练样本不易取得,经常是用小样本、多因子训练集。如何降低误报率,提高药物分子设计效果,是一个很现实的研究课题。最近,已有个别作者试用新发展的支持向量机算法于药物设计[3],为解决这一问题提供了一条新途径。传统的统计预报方法都以概率论中的大数定理为基础。大数定律认为:训练集数目极大时,拟合建模的结果才能完全反映真实规律。但实际问题又不可能取得无限多个样本。传统的统计数学假定:可以用经验风险最小,即拟合的最小二乘法误差为建模的判据。但这一假定在理论上并无充分根据,并不能保证所建的数学模型过拟合最小。为解决统计预报中如何使过拟合最小的问题,以Vapnik为代表的数学家作了长期系统的理论研究,提出了有别于传统统计数学的“统计学习理论”[4],近年来又根据这一理论提出了新的算法——支持向量机(supportvectormachine)算法[5],应用于人脸和语音识别效果良好,现已开始引起国际计算机学界的重视,但在计算化学领域尚少有应用。本工作以一个复杂分子集合的数据挖掘为例,考察SVM算法在药物分子设计中应用的实际效果。收稿日期:2002-06-10;修回日期:2002-09-10资金资助:国家自然科学基金委和美国福特公司联合资助,批准号:9716214作者简介:陆文聪(1964—),男,教授。研究方向:计算机化学。21.计算方法本工作中采用的支持向量机算法请参见本刊中“支持向量机算法和软件ChemSVM介绍”一文。人工神经网络、最近邻法(KNN)、Fisher法等模式识别方法可参见文献[6]。2.计算结果2.1训练样本取文献[2]所列的26个化合物为本工作的样本集,数据见表1。表1文献[2]所列的26个化合物样本列表Tab1Thelistof26compoundsfromthereference[2]CompoundnumberActivity*CMRμZHOMOALP(3)FZ(4)VDWE(4)FY(6)FZ(9)FY(11)1183.156006-0.023075-10.1254570.1654650.690959-0.018220.146858-1.331931-0.5712632185.6829911.133915-10.3730820.1641760.825953-0.067104-0.095023-1.814457-1.3113743183.169998-1.009328-10.2914480.1667670.199967-0.0074550.131438-0.2615071.6104434192.446007-1.100368-10.2696790.1661180.350187-0.092965-0.355433-0.1784413.9394175193.903000-0.883712-10.7676520.1651740.323102-0.090150.245022-0.444854-0.1013096190.3020021.681585-9.8968790.1651430.263393-0.091509-0.230816-0.693684-2.0564737186.6709981.509192-10.1417840.165020.012006-0.08891-0.466388-0.280089-1.6762088190.3020020.374931-9.853340.1651220.026151-0.102998-0.449422-0.066987-1.3268789187.794006-2.013182-10.1009660.1664730.240704-0.0714870.281943-0.050551.56515710192.19001-1.59107-10.3540340.165545-0.403645-0.237743-0.702534-0.4658680.12408411187.8140111.266109-10.5717280.1604910.151386-0.042395-0.152652-0.581760.47463812178.888992-0.01763-11.0560950.164764-0.31937-0.017028-0.3659370.7299730.70125213185.682991-2.126862-10.3730820.1654481.154631-0.07770.106626-1.773054-0.11584514185.682991-1.260413-10.4574380.1655080.956636-0.0596370.089594-1.630651-0.48954815186.750000.445967-10.8139110.1639380.051509-0.013655-0.1019510.724446-0.26484216186.751007-0.130124-10.3377080.1632030.342944-0.0546950.088702-1.062614-1.83501117181.836998-0.129692-10.0084470.1655980.304008-0.082730.202748-0.1216932.28541418181.808998-1.471474-11.0506530.1647860.155182-0.052069-0.053286-0.3720070.22904119287.701996-0.567377-10.7594880.1632770.334046-0.0968170.083781-1.089644-1.57586220280.582001-0.56162-10.4465540.1647640.274729-0.0618550.053127-0.56334-0.27345121283.063995-0.992965-10.8411240.1636020.37626-0.025280.068368-1.002572-1.53195922281.8369980.665133-10.3839670.163270.280005-0.054866-0.004466-1.071213-2.13082723279.928001-0.683407-10.1091290.1662610.041216-0.01325-0.0191640.0035972.00103524289.233002-0.955246-10.552680.1635970.611623-0.2178680.116554-1.201934-1.45771925285.49601-0.464845-10.5036990.1647570.153127-0.084228-0.013756-0.481711-0.3002826287.45900-1.887398-10.8302380.1630550.003264-0.0427770.031053-3.251751-1.093677*1=inactive;2=active.CMR:Calculatedmolarrefractivity.μZ:Zcomponentofthedipolemoment.HOMO:Energyofthehighestoccupiedmolecularorbital.FZ(No)andFY(No):ZandYcomponentsoftheelectricfieldatspecified(No)gridpoints.VDWE(No):ThevanderWaal’senergyoftheinteractionofacarbonatomataspecified(No)gridpoints.ALP(No):Theselfatompolarizabilityofthespecifiedatom(No).2.2SVM算法和软件数据预处理采用我们自编的软件Materialsresearchadvisor,软件说明见文献[6]。SVM采用我们参照国际文献的自编软件。32.3数据预处理在进行SVM算法应用试验以前,先用模式识别映照方法考察样本集的数据结构。以“1”类样本集作数据变换,其线性最佳投影图[5]如图1所示,样本集分类规律明显。1:非活性化合物2:活性化合物图1线性最佳投影图Fig.1Theoptimalprojectionofpatternrecognition考虑到SVM算法以升维后线性分区为基础,以最佳投影方向[6]相垂直的方向将特征空间划分为两个子空间,以利数据集的升维分类。模式识别投影还表明:划分为两个子空间后,两个子数据文件用Fisher法或KNN法处理结果较原数据集显著改善。据此,我们将原数据文件的数据代表点作坐标变换,组成两个子数据文件后再用SVM算法处理。子数据文件1包含表1的1,2,3,4,5,6,7,11,12,13,14,15,17,18,19,20,21,22,23,24,25,26样本,子数据文件2包含表1的8,9,10,16,19,20,21,22,23,24,25,26样本。3.计算结果和讨论3.1Fisher法和KNN法处理结果子数据文
本文标题:支持向量机算法用于拮抗药化合物活性的模式识别
链接地址:https://www.777doc.com/doc-364092 .html