1. IntroductionAbaloneAge.data 数据有 4177 个样本,7 个特性,其中 rings 作为预测标签,也就是年纪。对样本的某些统计数据以下表所示。NameData TypeMeas.DescriptionLengthcontinuousmmLongest shell measurementDiametercontinuousmmperpendicular to lengthHeightcontinuousmmwith meat in shellWhole weightcontinuousgramswhole abaloneShucked weightcontinuousgramsweight of meatViscera weightcontinuousgramsgut weight (after bleeding)Shell weightcontinuousgramsafter being driedRingsintegerStatistics for numeric domains:LengthDiamHeightWholeShuckeVisceraShellRingsMin0.0750.0550.0000.0020.0010.0010.0021Max0.8150.6501.1302.8261.4880.7601.00529Mean0.5240.4080.1400.8290.3590.1810.2399.934SD0.1200.0990.0420.4900.2220.1100.1393.224Correl0.5570.5750.5570.5400.4210.5040.6281.02. Algorithm Description考虑到数据的可分性,对年纪的预测是一种回归问题,因此采用支持向量机对数据进行回归分析。一、支持向量机的基本原理支持向量机(SVM)是 Corinna 和 Vapnik 于二十世纪末首先提出的。支持向量机办法 Vapnik-Chervonenkis 理论与构造风险最小理论为根底,使离超立体最靠近的元素到超平面的间隔最大。普通超平面不止一种,也就是说支持向量机的目的就是最大化超平面之间的间隔,也就是建立最佳的分类超平面,从而来提高学习分类机器的的泛化解决能力。该办法在解决高维小样本数据、数据的非线性以及解的局部极小点等多个问题中均展示出了诸多独有的优点,并进而将其推行使用到了其它相联系的机器学习问题中。支持向量机办法早已被广泛的应用到了肿瘤数据分类等领域的问题研究中。支持向量机的具体求解过程以下:(1) 设已知样本训练集:其中,,为特性向量。(2) 选择适宜核函数以及参数,解决优化问题:得最优解:。(3) 选用的正分量,计算样本分类阈值:。(4) 构造最优鉴别函数:。支持向量机内积核核函数 K 的重要种类有:① 线性内核函数 ② 多项式核函数 ③ 高斯径向基核函数 (RBF) ④ 双曲正切核函数 (Sigmoid核函数) 普通地,用 SVM 做分类预测时必须调节有关参数(特别是处罚参数 和核函数参数),这样才能够获得比较满意的预测分类精度,采用 Cross Validation 的思想能够获取最优的参数,并且有效避免过学习和欠学习状态的产生,从而能...