机器学习简明原理说明:本文整理自IBM 大数据学习文档,原文作者:韩笑琳1. 关于机器学习的简介机器学习是从大量数据中学习出特定规律的算法。其中提到的规律有很多种,比如分类、聚类、回归、关联分析等。分类就是给定大量带标签的数据,计算出未知标签样本的标签取值。如年龄40 岁以上、工科、 研究生以上学历,这类人薪资水平是高收入;年龄 20-30 岁、文科、 大专学历,这类人的薪资水平是低收入;现有一位23 岁大专文科人士,求该人的薪资水平是哪类?根据分类建模,就可以知道这个人的薪资水平很可能是低收入。聚类是将大量不带标签的数据根据距离聚集成不同的簇,每一簇数据有共同的特征。如电信行业可以根据用户的月长途电话分钟数、上网时长、短信使用数、地理位置、月消费数,将所有用户聚集成有典型特征的簇,聚集出的某簇特征可能是月长途电话分钟数长、上网时间长、 地理位置变化不大、月消费数目低,分析可得这类人极有可能是在校大学生,那么电信公司就可以针对这类特定人群制定有针对性的营销策略。回归是根据特征值、目标变量拟合出特征值与目标变量之间的函数关系,可用来估计特征值对应的目标变量的可能取值。举个简单的例子,某市今年某100 平米的房子价格是80 万,某150 平米房子价格是120 万,那么某200 平米的房子价格的取值就可能是200*0.8=160 万左右。关联分析 是计算出大量数据之间的频繁项集合。如超市订单中有大量订单同时包含啤酒与尿布, 这其中的频繁项就是啤酒和尿布,那么超市就可以针对这个规律对啤酒和尿布进行组合促销活动。分类算法主要包括K 近邻、决策树、朴素贝叶斯、逻辑回归、支持向量机、AdaBoost等;回归主要包括线性回归、岭回归、lasso 、树回归等;聚类主要包括K-Means 以及它的各种变形算法;关联分析主要包括Apriori 、FP-growth 等算法。支持向量机即support vector machine(简称 SVM) ,是机器学习领域经典的分类算法。2. 关于 SVM 的简介支持向量 是距离分类超平面近的那些点,SVM 的思想就是使得支持向量到分类超平面的间隔最大化。 出发点很容易理解,距离分类超平面近的那些点到该超平面的间隔最大化代表了该超平面对两类数据的区分度强,不容易出现错分的情况。如图 1 所示,支持向量到超平面 1 的间隔大于支持向量到超平面2 的间隔,因此超平面1 优于超平面2。图 1 两个超平面示例SVM 可以很好得解决二分类问题,对于多分类情况,就需要对模...