SVM 调研报告范文 摘要:随着统计学习理论的出现,将经验风险最小和泛化性相结合的 SVM(支持向量机)成为当今新的讨论热点。在参考大量文献的基础上,本文对 SVM 的本质做了,同时给出了常用的 SVM 软件,SVMlight,LIBSVM,为了深化了解 SVM 软件实现机制,对相关的分解算法和优化算法 SMO 也做了具体的介绍。通过改进SVMlight 和 LIBSVM 的瓶颈同时二者精华基础上,本文给出了高效的 HeroSVM,并对其实现机制给出了具体的介绍。最后本文对SVMlight 和 LIBSVM 在相同数据集上做了对比,并给出了性能分析。 第一章引言 1.1 理论背景 基于数据的机器学习是现代智能技术中的重要方面,从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行猜想。传统的经典的(参数)统计估量方法,要求已知参数的相关形式,利用练习样本用来估量参数的值,包括模式识别、神经网络等在内,但是这种方法有很大的局限性,因为需要已知样本分布形式,而这需要花费很大代价,还有,隐含的思想是样本数目趋于无穷大时的渐近理论,但在实际问题中,样本数往往是有限的,因此这些理论上很优秀的学习方法实际中表现却可能不尽人意。还有就是经验非线性方法,如人工神经网络(ANN),这种方法利用已知样本建立非线性模型,克服了传统参数估量方法的困难,但是缺乏一种统一的数学理论,在这种基础上现代的统计学习理论就诞生了。 统计学习理论[1](StatisticalLearningTheory 或 SLT)是一种专门讨论小样本情况下机器学习规律的理论.统计学习理论的一个核心概念就是 VC 维(VCDimension)概念,它是描述函数集或学习机器的复杂性或者说是学习能力(Capacityofthemachine)的一个重要指标,在此概念基础上进 展出了一系列关于统计学习的一 致性(Consistency)、收敛速度、推广性能(GeneralizationPerformance)等的重要结论。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮忙解决许多原来难以解决的问题(比如神经网络结构选择问题、局部微小点问题等。 1.2SVM 介绍 V.Vapnik 提出的支持向量机理论[2]是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定练习样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(Generalizatin...