基础算法学习总结1. 朴素贝叶斯学习1.1. 算法简介贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。从数学角度来说,分类问题可做如下定义:已知集合:C={y,y,yy}和 I={x,x,xx},确定映射规则 y=f(x),使得任意123n123nxeI 有且仅有一个 yeC 使得 y=f(x)成立。(不考虑模糊数学里的模糊集情况)。其中 Ciiii叫做类别集合,其中每一个元素是一个类别,而 I 叫做项集合,其中每一个元素是一个待分类项,f 叫做分类器。分类算法的任务就是构造分类器 f。分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题缺少足够的信息来构造 100%正确的映射规则,而是通过对经验数据的学习从而实现一定概率意义上正确的分类,因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类,分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关。解决问题:已知某条件概率,如何得到两个事件交换后的概率,也就是在已知 P(A|B)的情况下如何求得 P(B|A)。这里先解释什么是条件概率:P(B|A)表示事件 B 已经发生的前提下,事件 A 发生的概率,叫做事件 B 发生下事件 A 的条件概率。其基本求解公式为:贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易直接得出 P(A|B),P(B|A)则很难直接得出,但我们更关心 P(B|A),贝叶斯定理就为我们打通从 P(A|B)获得 P(B|A)的道路。F 面不加证明地直接给出贝叶斯定理:1.2. 算法流程朴素贝叶斯分类是一种十分简单的分类算法,叫它朴素贝叶斯分类是因为这种方法的思想真的很朴素,朴素贝叶斯的思想基础是这样的:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。P(AIB)=P(AB)P(B)P(BIA)=P(A 丨B)P(B)P(A)朴素贝叶斯分类的正式定义如下:1、设 x={a,aa}为一个待分类项,而每个 a 为 x 的一个特征属性。12m2、有类别集合 C={y,y,yy}123n3、计算 P(y|x),P(yIx),...,P(yIx)12n4、如果 P(yIx)=max{P(yIx),P(yIx),...,P(yIx)},则 xeyk12nk那么现在的关键就是如何计算第 3 步中的各个条件概率。我们可以这么做:1、找到一个已知分类的待分类项集合,这个集合叫做训练样本集。2、统计得到在各类别下各个特征属性的条件概率估计。即:P(aIy),P(aIy),...,P(aIy);P(aIy),P(aIy),...,P(aIy);...;P(aIy),P(aIy),...,P(aIy)1121m11222m21n2nmn3、如果各个特征属性是条件独立的,则根据贝叶斯定理有如下推导: