文本挖掘算法总结

下载本文档

阅读 170
下载 12
格式 docx
大小 20.67 KB
约9页
2025-01-10 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/9页

2/9页

3/9页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

下载后可任意编辑文本挖掘算法总结文本数据挖掘算法应用小结 1、基于概率统计的贝叶斯分类 2、ID3 决策树分类 3、基于粗糙集理论 RoughSet 的确定型知识挖掘 4、基于 k-means 聚类 5、无限细分的模糊聚类 FuzzyClustering 6、SOM 神经元网络聚类 7、基于 Meaning 的文本相似度计算 8、文本模糊聚类计算 9、文本 k-means 聚类 10、文本分类 11、关联模式发现 12、序列模式发现 13、PCA 主成分分析 1、基于概率统计的贝叶斯分类算法概述：贝叶斯公式是由英国数学家(ThomasBayes1702-1763)制造，用来描述两个条件概率之间的关系，比如 P(A|B)为当“B”事件发生时“A”事件发生的概率，根据乘法法则： P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)，可导出贝叶斯公式：P(A|B)=P(B|A)*P(A)/P(B) 贝叶斯分类基本思想为：设决策变量为 D，D1，D2，Di，…，Dk 为 n 条记录组成的样本空间 S 的一个划分，将 n 条记录划分成 k 个记录集合，假如以P(Di)表示事件 Di 发生的概率，且 P(Di)>0(i=1，2，…，k)。对于任一事件x，P(x)>0，则有：贝叶斯分类的基本原理，就是利用贝叶斯条件概率公式，将事件 X 视为多个条件属性 Cj 各种取值的组合，当 x 事件发生时决策属性 Di 发生的条件概率。贝叶斯分类是一种概率型分类知识挖掘方法，不能百分之百地确定 X 事件发生1下载后可任意编辑时 Di 一定发生。解决问题：预测所属分类的概率。通过已知 n 条样本集记录，计算各种条件属性组发生的概率，得出“贝叶斯分类”规则，给定一个未知“标签”记录，选择最大概率为其所属“分类”。 2、ID3 决策树分类算法概述：ID3 算法是 J.RossQuinlan 在 1975 提出的分类算法，当时还没有“数据挖掘”的概念。该算法以信息论为基础，以信息熵和信息增益度来确定分枝生成决策树 D-Tree。ID3 算法以决策树 D-Tree 构建分类知识模型，D-Tree 中最上面的节点为根节点 Root，每个分支是一个新的决策节点，或者是树的叶子。每个决策节点代表一个问题或决策，每一个叶子节点代表一种可能的分类结果，沿决策树在每个节点都会遇到一个测试，对每个节点上问题的不同取值导致不同的分支，最后会到达一个叶子节点为确定所属分类。解决问题：预测所属分类。通过已知样本集记录，生成一颗“分类知识树”，给定一个未知“标签”记录，通过“分类知识树”来确定其所属分类。 3、基于粗糙集理论 RoughSet 的确定型知识挖...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容