第31卷第5期2014年5月计算机应用研究
ApplicationResearchofComputersVol.31No.5May2014
汪海燕,黎建辉,杨风雷
(中国科学院计算机网络信息中心科学数据中心,北京100190)
摘
要:介绍了SVM的理论基础和它的多种主要算法及这些算法的利弊与发展现状,并介绍了SVM在现实生
活中的应用原理及应用现状。最后分析了SVM在发展中的不足之处,指出了其研究方向及前景,并提出在分布式支持向量机这个方向上可以进行更深层次的研究。
关键词:支持向量机;统计学习理论;训练算法;模糊支持向量机;多分类支持向量机;模式识别中图分类号:TP301
文献标志码:A
文章编号:1001-3695(2014)05-1281-06
3695.2014.05.001doi:10.3969/j.issn.1001-
Overviewofsupportvectormachineanalysisandalgorithm
WANGHai-yan,LIJian-hui,YANGFeng-lei
(ScienceDataCenter,ComputerNetworkInformationCenter,ChineseAcademyofSciences,Beijing100190,China)
Abstract:Thispaperintroducedthetheoreticalbasisofsupportvectormachine,inaddition,itdescribedsomealgorithmsaboutSVMandanalysedtheiradvantagesanddisadvantagesanddevelopmentstatus.ThenitintroducedtheapplicationprincipleofSVMinthereallifeanditsapplicationstatus.Finally,itanalysedthedeficiencyinthedevelopmentofSVMandpointedouttheresearchdirectionandprospects,anditputforwarddistributedsupportvectormachinewhichasadirectioncouldbemakeadeeperresearch.
Keywords:supportvectormachine(SVM);statisticallearningtheory(SLT);trainingalgorithm;fuzzysupportvectorma-classsupportvectormachines;patternrecognitionchines;multi-
支持向量机(SVM)是Cortes等人于1995年提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优并能推广应用到函数拟合等其他机器学习问题中。势,
支持向量机
[1]
在这种体系下的统计推理规则不仅考虑了对渐进性能的要求,
而且追求在现有有限信息条件下能够得到最优结果。SVM是建立在SLT的VC维理论和结构风险最小原理基
[6]
础上的。关于VC维理论的定义是:对一个指示函数集,如果存在h个样本能够被一个函数集中的函数按所有可能的2种形式分开,则称这个函数集能够把h个样本打散,函数集的VC维就是它能打散的最大样本数目h。VC维本质上可以理
VC维数越高,则该函数集的机器学习越解为问题的复杂程度,
SLT引入了泛化误差界的概复杂。关于结构风险最小原理,
该理论指出,机器学习的实际误差是由经验风险和置信风念,
险两部分组成。
泛化误差界的公式如下:
R(w)≤remp(w)+φ(n/h)
(1)
Cher-是建立在统计学习理论的VC(Vapnik-
vonenkis)维理论和结构风险最小原理基础上的,根据有限的样以期获本信息在模型的复杂性和学习能力之间寻求最佳折中,得最好的推广能力。支持向量机具有较强的理论基础,它能保证找到的极值解是全局最优解而非局部最小值,这也就决定了SVM方法对未知样本有较好的泛化能力,正因为这些优点,SVM能良好地应用到模式识别、概率密度函数估计、时间序列预测、回归估计等领域,也被广泛应用到模式识别中的手写数字识别
[2]
[3][4]
、文本分类、图像分类与识别等众多领域中。
1.1
支持向量机理论
VC维理论和结构风险最小原理
支持向量机是基于统计学习理论(SLT)的新型机器学习
remp(w)是经验风险,其中:R(w)是实际风险,φ(n/h)是置信
风险。置信风险与两个量相关:a)样本数量,样本数量越大,机器学习结果越有可能正确,置信风险也就越小;b)分类函数的VC维,VC维的维数越大,泛化能力越差,置信风险就会越大。统计学习的目标就是从寻求经验风险最小化转变为寻求经验风险与置信风险的和最小,即结构风险最小。SVM正是这样一种使结构风险最小的算法。1.2
SVM理论
SVM理论的初衷是寻求一种处理两类数据分类问题的方法。SVM旨在寻找一个超平面,使得训练样本集中不同类别
方法。机器学习主要研究的是计算机如何模拟或实现人类的学习能力,以获取新的知识和技能,重新组织已有的知识结构,使之不断改善自身的性能。机器学习的实现方法主要有以下经验非线性方法、统计学习理论。三种:统计预测方法、
SLT是一种专门研究小样本情况下机器学习规律的理论
[5]
,该理论针对小样本统计问题建立了一套新的理论体系,
发表评论