数据挖掘知识点VIP免费

下载本文档

阅读 153
下载 10
格式 pdf
大小 371.44 KB
约9页
2024-11-25 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/9页

2/9页

3/9页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

数据挖掘知识点：一、数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识。数据库 DB 系统最主要的功能：数据存储、查询处理、事物处理。数据挖掘的主要功能：关联分析、时序模式、聚类分析、分类、偏差检测、预测数据预处理：是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数，或者是处理一些不好的数据，从而改善实例数据的质量和提高数据挖掘的速度。数据预处理功能：数据集成，数据清理，数据变换，数据简化。二、数据挖掘的基本算法： 1、分类：分类的目的是构造一个分类函数或分类模型（分类器），该模型能把数据库中的数据项映射到某一个给定类别。分类定义：给定数据库 D＝｛t1,t2,…,tn｝，元组 tiD，类的集合C＝｛C1,……,Cm｝，分类问题定义为从数据库到类集合的映射 f：DC，即数据库中的元组 ti 分配到某个类 Cj 中，有 Cj ＝｛ti|f(ti) = Cj，1≤i≤n，且 ti∈D｝。 ID3 算法： ID3 算法是国际上最具影响和最早的决策树算法。首先通过检验数据库中的所有字段，找出具有最大信息增益 Gian（A)的字段作为决策树碑的一个结点，再根据字段的不同取值建立树的分支，对每个子集分支重复建立下层结点和分支，直到某一子集的结果属于同一类。信息量计算公式： I(s1,s2,……,sm)=－∑Pi log2(pi) （i=1,…,m）（S 是 s 个数据样本的集合。类别属性具有 m 个不同值 Ci。 si 是类 Ci 中的样本数。pi 是任意样本属于类别 Ci 的概率，并用 si/s 估计。）由非类别属性 A 划分为子集的熵(也叫做信息熵)计算公式为： E(A)= ∑(s1j+ ……+smj)/s * I(s1j， ……，smj) （非类别属性 A 具有 v 个不同值｛a1，a2，…，av｝。利用属性 A 将集合 S 划分为v 个子集｛S1，S2，…，Sv｝；其中Sj 包含S 集合中在属性A 上具有值aj的数据样本。 Sij 是子集Sj 中类Ci 的样本数(Sij 是子集Sj 中类Ci 的样本数)。）信息增益：Gain(A)= I(s1,s2,……,sm) － E(A) 例题： Day outlook Temperature Humidity Wind Play ball 1 晴 Hot High Weak No 2 晴 Hot High Strong No 3 多云 Hot High Weak Yes 4 有雨 mild High Weak Yes 5 有雨 Cool Normal Weak Yes 6 有雨 Cool Normal Strong No 7 多云 Cool Normal Strong Yes 8 晴 mild Hig...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据挖掘知识点

数据挖掘知识点：一、数据挖掘是从大量的数据中挖掘那些令人感兴趣的有用的隐含的先前未知的和不可能有用的模式和知识

数据库 DB 系统最主要的功能：数据存储、查询处理、事物处理

数据挖掘的主要功能：关联分析、时序模式、聚类分析、分类、偏差检测、预测数据预处理：是从大量的数据属性中提取出对目标有重要影响的属性来降低原始数据的维数，或者是处理一些不好的数据，从而改善实例数据的质量和提高数据挖掘的速度

数据预处理功能：数据集成，数据清理，数据变换，数据简化

二、数据挖掘的基本算法： 1、分类：分类的目的是构造一个分类函数或分类模型（分类器），该模型能把数据库中的数据项映射到某一个给定类别

分类定义：给定数据库 D＝｛t1,t2,…,tn｝，元组 tiD，类的集合C＝｛C1,……,Cm｝，分类问题定义为从数据库到类集合的映射 f：DC，即数据库中的元组 ti 分配到某个类 Cj 中，有 Cj ＝｛ti|f(ti) = Cj，1≤i≤n，且 ti∈D｝

ID3 算法： ID3 算法是国际上最具影响和最早的决策树算法

首先通过检验数据库中的所有字段，找出具有最大信息增益 Gian（A)的字段作为决策树碑的一个结点，再根据字段的不同取值建立树的分支，对每个子集分支重复建立下层结点和分支，直到某一子集的结果属于同一类

信息量计算公式： I(s1,s2,……,sm)=－∑Pi log2(pi) （i=1,…,m）（S 是 s 个数据样本的集合

类别属性具有 m 个不同值 Ci

si 是类 Ci 中的样本数

pi 是任意样本属于类别 Ci 的概率，并用 si/s 估计

）由非类别属性 A 划分为子集的熵(也叫做信息熵)计算公式为： E(A)= ∑(s1j+ ……+smj)/s * I(s1j， ……，smj) （非类别属性 A 具有 v 个不同值｛a1，a2，…，av

小辰 + 关注: 实名认证
内容提供者

出售各种文档和资料

收藏店铺进入空间

数据挖掘知识点VIP免费

数据挖掘知识点

您可能关注的文档

相关文档

热门下载

相关标签