电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

文本挖掘算法总结

文本挖掘算法总结_第1页
1/9
文本挖掘算法总结_第2页
2/9
文本挖掘算法总结_第3页
3/9
下载后可任意编辑文本挖掘算法总结文本数据挖掘算法应用小结 1、基于概率统计的贝叶斯分类 2、ID3 决策树分类 3、基于粗糙集理论 RoughSet 的确定型知识挖掘 4、基于 k-means 聚类 5、无限细分的模糊聚类 FuzzyClustering 6、SOM 神经元网络聚类 7、基于 Meaning 的文本相似度计算 8、文本模糊聚类计算 9、文本 k-means 聚类 10、文本分类 11、关联模式发现 12、序列模式发现 13、PCA 主成分分析 1、基于概率统计的贝叶斯分类 算法概述:贝叶斯公式是由英国数学家(ThomasBayes1702-1763)制造,用来描述两个条件概率之间的关系,比如 P(A|B)为当“B”事件发生时“A”事件发生的概率,根据乘法法则: P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B),可导出 贝叶斯公式:P(A|B)=P(B|A)*P(A)/P(B) 贝叶斯分类基本思想为:设决策变量为 D,D1,D2,Di,…,Dk 为 n 条记录组成的样本空间 S 的一个划分,将 n 条记录划分成 k 个记录集合,假如以P(Di)表示事件 Di 发生的概率,且 P(Di)>0(i=1,2,…,k)。对于任一事件x,P(x)>0,则有: 贝叶斯分类的基本原理,就是利用贝叶斯条件概率公式,将事件 X 视为多个条件属性 Cj 各种取值的组合,当 x 事件发生时决策属性 Di 发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法,不能百分之百地确定 X 事件发生1下载后可任意编辑时 Di 一定发生。 解决问题:预测所属分类的概率。通过已知 n 条样本集记录,计算各种条件属性组发生的概率,得出“贝叶斯分类”规则,给定一个未知“标签”记录,选择最大概率为其所属“分类”。 2、ID3 决策树分类 算法概述:ID3 算法是 J.RossQuinlan 在 1975 提出的分类算法,当时还没有“数据挖掘”的概念。该算法以信息论为基础,以信息熵和信息增益度来确定分枝生成决策树 D-Tree。ID3 算法以决策树 D-Tree 构建分类知识模型,D-Tree 中最上面的节点为根节点 Root,每个分支是一个新的决策节点,或者是树的叶子。每个决策节点代表一个问题或决策,每一个叶子节点代表一种可能的分类结果,沿决策树在每个节点都会遇到一个测试,对每个节点上问题的不同取值导致不同的分支,最后会到达一个叶子节点为确定所属分类。 解决问题:预测所属分类。通过已知样本集记录,生成一颗“分类知识树”,给定一个未知“标签”记录,通过“分类知识树”来确定其所属分类。 3、基于粗糙集理论 RoughSet 的确定型知识挖...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

文本挖掘算法总结

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部