下载后可任意编辑文本挖掘算法总结文本数据挖掘算法应用小结 1、基于概率统计的贝叶斯分类 2、ID3 决策树分类 3、基于粗糙集理论 RoughSet 的确定型知识挖掘 4、基于 k-means 聚类 5、无限细分的模糊聚类 FuzzyClustering 6、SOM 神经元网络聚类 7、基于 Meaning 的文本相似度计算 8、文本模糊聚类计算 9、文本 k-means 聚类 10、文本分类 11、关联模式发现 12、序列模式发现 13、PCA 主成分分析 1、基于概率统计的贝叶斯分类 算法概述:贝叶斯公式是由英国数学家(ThomasBayes1702-1763)制造,用来描述两个条件概率之间的关系,比如 P(A|B)为当“B”事件发生时“A”事件发生的概率,根据乘法法则: P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可导出 贝叶斯公式:P(A|B)=P(B|A)*P(A)/P(B) 贝叶斯分类基本思想为:设决策变量为 D,D1,D2,Di,…,Dk 为 n 条记录组成的样本空间 S 的一个划分,将 n 条记录划分成 k 个记录集合,假如以P(Di)表示事件 Di 发生的概率,且 P(Di)>0(i=1,2,…,k)
对于任一事件x,P(x)>0,则有: 贝叶斯分类的基本原理,就是利用贝叶斯条件概率公式,将事件 X 视为多个条件属性 Cj 各种取值的组合,当 x 事件发生时决策属性 Di 发生的条件概率
贝叶斯分类是一种概率型分类知识挖掘方法,不能百分之百地确定 X 事件发生1下载后可任意编辑时 Di 一定发生
解决问题:预测所属分类的概率
通过已知 n 条样本集记录,计算各种条件属性组发生的概率,得出“贝叶斯分类”规则,给定一个未知“标签”记录,选择最大概率为其所属“分类”
2、ID3 决策树分类 算法概述:ID3 算法是 J
RossQuinla