支持向量机算法用于拮抗药化合物活性的模式识别陆文聪,王焜,陈念贻(上海大学化学系计算机化学研究室,上海,200436)摘要:本工作试用新近提出的、特别适合于小样本多变量训练集的支持向量机(supportvectormachine,简称SVM)算法于复杂药物分子设计。对一批26个处理化疗或放疗呕吐拮抗药的候选化合物筛选数据用留一法判别SVM的预报能力。结果表明:与人工神经网络、最近邻法(KNN)、Fisher法相比,SVM算法可以提供误报率更低的数学模型。关键词:支持向量机算法,QSAR,药物分子设计中图分类号:O06-04SupportVectorMachineAppliedtothePatternRecognitionofActivityofAntagonistsLUWen-cong,WANGKun,CHENNian-yi(DepartmentofChemistry,SchoolofSciences,ShanghaiUniversity,Shanghai200436,China)AbstractInthiswork,therelationshipbetweentheactivityandstructuraldescriptorswasinvestigatedbyusingthesupportvectormachinedevelopedbyVapnik.Forthesamplesetwith26compoundsasantagonists,thecrossvalidationbyleaving-onemethodwasusedtocomparethepredictionabilityofsupportvectormachinemethodwithKNNandFishermethod.ItwasfoundthatthepredictionresultbysupportvectormachinewasbetterthanthatofKNNorFishermethod.KeyWords:antagonist,supportvectormachine,patternrecognition有机分子的结构-活性关系研究是药物分子设计的重要手段。一般用线性回归方法总结各种量子化学、结构化学参数与分子生物活性的关系。但当训练集各分子的结构相差较大时,上述关系有时呈现强非线性。不少作者采用人工神经网络或非线性映照方法作数据处理,如Bienfait将自组织人工神经网络用于QSAR研究[1],Livinstone应用ReNdeR型人工神经网络对复杂分子训练集作非线性二维投影[2],都取得相当的成果。然而,如所周知:对于小样本、多变量的训练集,人工神经网络会产生较严重的过拟合(overfitting)问题,即拟合结果好而预报效果差的问题。而药物分子设计中由于训练样本不易取得,经常是用小样本、多因子训练集。如何降低误报率,提高药物分子设计效果,是一个很现实的研究课题。最近,已有个别作者试用新发展的支持向量机算法于药物设计[3],为解决这一问题提供了一条新途径。传统的统计预报方法都以概率论中的大数定理为基础。大数定律认为:训练集数目极大时,拟合建模的结果才能完全反映真实规律。但实际问题又不可能取得无限多个样本。传统的统计数学假定:可以用经验风险最小,即拟合的最小二乘法误差为建模的判据。但这一假定在理论上并无充分根据,并不能保证所建的数学模型过拟合最小。为解决统计预报中如何使过拟合最小的问题,以Vapnik为代表的数学家作了长期系统的理论研究,提出了有别于传统统计数学的“统计学习理论”[4],近年来又根据这一理论提出了新的算法——支持向量机(supportvectormachine)算法[5],应用于人脸和语音识别效果良好,现已开始引起国际计算机学界的重视,但在计算化学领域尚少有应用。本工作以一个复杂分子集合的数据挖掘为例,考察SVM算法在药物分子设计中应用的实际效果。1.计算方法收稿日期:2002-06-10;修回日期:2002-09-10资金资助:国家自然科学基金委和美国福特公司联合资助,批准号:9716214作者简介:陆文聪(1964—),男,教授。研究方向:计算机化学。本工作中采用的支持向量机算法请参见本刊中“支持向量机算法和软件ChemSVM介绍”一文。人工神经网络、最近邻法(KNN)、Fisher法等模式识别方法可参见文献[6]。2.计算结果2.1训练样本取文献[2]所列的26个化合物为本工作的样本集,数据见表1。表1文献[2]所列的26个化合物样本列表Tab1Thelistof26compoundsfromthereference[2]CompoundnumberActivity*CMRμZHOMOALP(3)FZ(4)VDWE(4)FY(6)FZ(9)FY(11)1183.156006-0.023075-10.1254570.1654650.690959-0.018220.146858-1.331931-0.5712632185.6829911.133915-10.3730820.1641760.825953-0.067104-0.095023-1.814457-1.3113743183.169998-1.009328-10.2914480.1667670.199967-0.0074550.131438-0.2615071.6104434192.446007-1.100368-10...