1 1. Introdu ction AbaloneAge.data 数据有4177 个样本,7 个特征,其中rings 作为预测标签,也就是年龄。对样本的一些统计数据如下表所示。 Name Data Type Meas. Description Length continuous mm Longest shell measurement Diameter continuous mm perpendicular to length Height continuous mm w ith meat in shell Whole w eight continuous grams w hole abalone Shucked w eight continuous grams w eight of meat Viscera w eight continuous grams gut w eight (after bleeding) Shell w eight continuous grams after being dried Rings integer Statistics for nu meric domains: Length Diam Height Whole Shucke Viscera Shell Rings Min 0.075 0.055 0.000 0.002 0.001 0.001 0.002 1 Max 0.815 0.650 1.130 2.826 1.488 0.760 1.005 29 Mean 0.524 0.408 0.140 0.829 0.359 0.181 0.239 9.934 SD 0.120 0.099 0.042 0.490 0.222 0.110 0.139 3.224 Correl 0.557 0.575 0.557 0.540 0.421 0.504 0.628 1.0 2. Algorithm Description 考虑到数据的可分性,对年龄的预测是一个回归问题,所以采用支持向量机对数据进行回归分析。 一、支持向量机的基本原理 支持向量机(SVM)是Corinna 和 Vapnik 于二十世纪末首先提出的。支持向量机方法 Vapnik-Cherv onenkis 理论与构造风险最小理论为根底,使离超立体最接近的元素到超平面的间隔最大。通常超平面不止一个,也就是说支持向量机的目标就是最大化超平面之间的间隔,也就是建立最好的分类超平面,从而来提高学习分类机器的的泛化处理能力。该方法在解决高维小样本数据、数据的非线性以及解的局部极小点等多个问题中均展示出了很多独有的优点,并进而将其推行使用到了其余相联系的机器学习问题中。支持向量机方法早已被广泛的应用到了肿瘤数据分类等领域的问题研究中。 2 支持向量机的具体求解过程如下: (1) 设已知样本训练集: 11,,,nnnTxyxyXY 其中,,1, 11,2,,niixXRyYin ,ix 为特征向量。 (2) 选择适当核函数( ,)ijK xx以及参数C ,解决优化问题: 1111,2minnnniijjijjijjyy K xx 1. .0, 0,1,,niiiis tyC in...