数据挖掘(8):朴素贝叶斯分类算法原理与实践 隔了很久没有写数据挖掘系列的文章了,今天介绍一下朴素贝叶斯分类算法,讲一下基本原理,再以文本分类实践。 一个简单的例子 朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下: 这个公式虽然看上去简单,但它却能总结历史,预知未来。公式的右边是总结历史,公式的左边是预知未来,如果把 Y看出类别,X看出特征,P(Yk|X)就是在已知特征 X的情况下求 Yk类别的概率,而对 P(Yk|X)的计算又全部转化到类别 Yk的特征分布上来。 举个例子,大学的时候,某男生经常去图书室晚自习,发现他 喜 欢 的那 个女 生也 常去那个自习室,心 中 窃 喜 ,于 是每 天买 点 好 吃 点 在那 个自习室蹲 点 等 她 来,可 是人 家 女 生不一定每 天都 来,眼 看天气 渐 渐 炎 热 ,图书馆 又不 开 空 调 ,如果那 个女 生没有去自修 室,该 男生也 就不 去,每 次 男生鼓 足 勇 气 说 :“嘿,你明天还来不 ?”,“啊,不 知道,看情况”。然后该 男生每 天就把她 去自习室与否以及一些其他 情况做一下记录,用 Y表示该女 生是否去自习室,即 Y={去,不 去},X是跟去自修 室有关联的一系列条件,比如当天上了哪门主课,蹲 点 统计了一段时间后,该 男生打算今天不 再蹲 点 ,而是先预测一下她会不 会去,现在已经知道了今天上了常微分方法这么主课,于 是计算 P(Y=去|常微分方程 )与 P(Y=不 去 |常 微 分 方 程 ), 看 哪 个 概 率 大 , 如 果 P(Y=去 |常 微 分 方 程 ) >P(Y=不 去 |常 微 分 方 程 ), 那 这 个 男 生 不 管 多 热 都 屁 颠 屁 颠 去 自 习 室 了 , 否 则 不 就 去 自 习 室 受 罪 了 。P(Y=去 |常 微 分 方 程 )的 计 算 可 以 转 为 计 算 以 前 她 去 的 情 况 下 , 那 天 主 课 是 常 微 分 的 概 率P(常 微 分 方 程 |Y=去 ), 注 意 公 式 右 边 的 分 母 对 每 个 类 别 ( 去 /不 去 ) 都 是 一 样 的 , 所 以计 算 的 时 候 忽 略 掉 分 母 , 这 样 虽 然 得 到 的 概 率 值 已 经 不 再 是 0~1之 间 , 但 是 其 大 小 还是 能 选 择 类 别 。 后 来 他 发...