1 第三章 监督学习算法 监督学习又称为分类(Classification)或者归纳学习(Indu ctiv e Learning)。几乎适用于所有领域,包括文本和网页处理。给出一个数据集D,机器学习的目标就是产生一个联系属性值集合A 和类标集合C 的分类/ 预测函数(Classification/Prediction Function ),这个函数可以用于预测新的属性集合的类标。这个函数又被称为分类模型(Classification Model)、预测模型(Prediction Model)。这个分类模型可以是任何形式的,例如决策树、规则集、贝叶斯模型或者一个超平面。 在监督学习(Supervised Learning )中,已经有数据给出了类标;与这一方式相对的是无监督学习(Unsupervised Learning),在这种方式中,所有的类属性都是未知的,算法需要根据数据集的特征自动产生类属性。其中算法中用于进行学习的数据集叫做训练数据集,当使用学习算法用训练数据集学习得到一个模型以后,我们使用测试数据集来评测这个模型的精准度。 机器学习的最基本假设:训练数据的分布应该与测试数据的分布一致。 训练算法:训练算法就是给定一组样本,我们计算这些参数的方法。本节简要介绍以下几种常用的机器学习算法,比如决策树,朴素贝叶斯,神经网络,支持向量机,线性最小平方拟合,kNN,最大熵等。 3.1 两类感知器 见课本 3.2 多类感知器 见课本 3.3 决策树算法 决策树学习算法是分类算法中最广泛应用的一种技术,这种算法的分类精度与其他算法相比具有相当的竞争力,并且十分高效。 决策树是一个预测模型;他代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象属性,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值(类别)。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步进行。 决策树的生成:由训练样本集生成决策树的过程。一般情况下,训练样本数据集 2 是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。 1. 树以代表训练样本的单个结点开始。 2. 如果样本都在同一个类.则该结点成为树叶,并用该类标记。 3. 否则,算法选择最有分类能力的属性作为决策树的当前结点。 4. 根据当前决策结点属性取值的不同,将训练样本数据集分为若干子集,每个取值形成一个分枝。 5...