1 第三章 监督学习算法 监督学习又称为分类(Classification)或者归纳学习(Indu ctiv e Learning)
几乎适用于所有领域,包括文本和网页处理
给出一个数据集D,机器学习的目标就是产生一个联系属性值集合A 和类标集合C 的分类/ 预测函数(Classification/Prediction Function ),这个函数可以用于预测新的属性集合的类标
这个函数又被称为分类模型(Classification Model)、预测模型(Prediction Model)
这个分类模型可以是任何形式的,例如决策树、规则集、贝叶斯模型或者一个超平面
在监督学习(Supervised Learning )中,已经有数据给出了类标;与这一方式相对的是无监督学习(Unsupervised Learning),在这种方式中,所有的类属性都是未知的,算法需要根据数据集的特征自动产生类属性
其中算法中用于进行学习的数据集叫做训练数据集,当使用学习算法用训练数据集学习得到一个模型以后,我们使用测试数据集来评测这个模型的精准度
机器学习的最基本假设:训练数据的分布应该与测试数据的分布一致
训练算法:训练算法就是给定一组样本,我们计算这些参数的方法
本节简要介绍以下几种常用的机器学习算法,比如决策树,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,最大熵等
1 两类感知器 见课本 3
2 多类感知器 见课本 3
3 决策树算法 决策树学习算法是分类算法中最广泛应用的一种技术,这种算法的分类精度与其他算法相比具有相当的竞争力,并且十分高效
决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系
树中每个节点表示某个对象属性,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值(类别)