第6 章 贝叶斯学习 贝叶斯推理提供了推理的一种概率手段。它基于如下的假定,即待考查的量遵循某概率分布,且可根据这些概率及已观察到的数据进行推理,以作出最优的决策。贝叶斯推理对机器学习十分重要,因为它为衡量多个假设的置信度提供了定量的方法。贝叶斯推理为直接操作概率的学习算法提供了基础,而且它也为其他算法的分析提供了理论框架。 6 .1 介绍 贝叶斯学习同我们的机器学习研究相关,有两个原因。首先,贝叶斯学习算法能够计算显式的假设概率,如朴素贝叶斯分类器,它是解决相应学习问题的最有实际价值的方法之一。例如,Michie et al.(1994)详细研究比较了朴素贝叶斯分类器和其他学习算法,包括决策树和神经网络。他们发现朴素贝叶斯分类器在多数情况下与其他学习算法性能相当,在某些情况下还优于其他算法。本章描述了朴素贝叶斯分类器,并提供了一个详细例子:即它应用于文本文档分类的学习问题(如电子新闻分类)。对于这样的学习任务,朴素贝叶斯分类是最有效的算法之一。 贝叶斯方法对于机器学习研究的重要性还体现在,它为理解多数学习算法提供了一种有效的手段,而这些算法不一定直接操作概率数据。例如,本章分析了第2 章的 Find-S 和候选消除算法,以判断在给定数据时哪一个算法将输出最有可能的假设。我们还使用贝叶斯分析证明了神经网络学习中的一个关键性的选择:即在搜索神经网络空间时,选择使误差平方和最小化的神经网络。我们还推导出另一种误差函数:交叉熵。它在学习预测概率目标函数时比误差平方和更合适。本章还用贝叶斯的手段分析了决策树的归纳偏置(即优选最短的决策树),并考查了密切相关的最小描述长度(Minimu m Description Length)原则。对贝叶斯方法的基本了解,对于理解和刻画机器学习中许多算法的操作很重要。 贝叶斯学习方法的特性包括: 观察到的每个训练样例可以增量式地降低或升高某假设的估计概率。这提供了一种比其他算法更合理的学习途径。其他算法会在某个假设与任一样例不一致时完全去掉该假设。 先验知识可以与观察数据一起决定假设的最终概率。在贝叶斯学习中,先验知识的形式可以是(1)每个候选假设的先验概率(2)每个可能假设在可观察数据上的概率分布。 贝叶斯方法可允许假设做出不确定性的预测。(比如这样的假设:这一肺炎病人有 93%的机会康复)。 新的实例分类可由多个假设一起作出预测,以它们的概率为权重。 即使在贝叶斯方法...