数据挖掘(8):朴素贝叶斯分类算法原理与实践 隔了很久没有写数据挖掘系列的文章了,今天介绍一下朴素贝叶斯分类算法,讲一下基本原理,再以文本分类实践
一个简单的例子 朴素贝叶斯算法是一个典型的统计学习方法,主要理论基础就是一个贝叶斯公式,贝叶斯公式的基本定义如下: 这个公式虽然看上去简单,但它却能总结历史,预知未来
公式的右边是总结历史,公式的左边是预知未来,如果把 Y看出类别,X看出特征,P(Yk|X)就是在已知特征 X的情况下求 Yk类别的概率,而对 P(Yk|X)的计算又全部转化到类别 Yk的特征分布上来
举个例子,大学的时候,某男生经常去图书室晚自习,发现他 喜 欢 的那 个女 生也 常去那个自习室,心 中 窃 喜 ,于 是每 天买 点 好 吃 点 在那 个自习室蹲 点 等 她 来,可 是人 家 女 生不一定每 天都 来,眼 看天气 渐 渐 炎 热 ,图书馆 又不 开 空 调 ,如果那 个女 生没有去自修 室,该 男生也 就不 去,每 次 男生鼓 足 勇 气 说 :“嘿,你明天还来不
”,“啊,不 知道,看情况”
然后该 男生每 天就把她 去自习室与否以及一些其他 情况做一下记录,用 Y表示该女 生是否去自习室,即 Y={去,不 去},X是跟去自修 室有关联的一系列条件,比如当天上了哪门主课,蹲 点 统计了一段时间后,该 男生打算今天不 再蹲 点 ,而是先预测一下她会不 会去,现在已经知道了今天上了常微分方法这么主课,于 是计算 P(Y=去|常微分方程 )与 P(Y=不 去 |常 微 分 方 程 ), 看 哪 个 概 率 大 , 如 果 P(Y=去 |常 微 分 方 程 ) >P(Y=不 去 |常 微 分 方 程 ), 那 这 个 男 生 不 管 多 热 都 屁 颠 屁 颠 去 自 习 室 了 , 否 则 不 就 去 自 习 室 受 罪 了
P(Y=去 |常