电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据仓库与数据挖掘技术第四章数据预处理VIP免费

数据仓库与数据挖掘技术第四章数据预处理_第1页
1/10
数据仓库与数据挖掘技术第四章数据预处理_第2页
2/10
数据仓库与数据挖掘技术第四章数据预处理_第3页
3/10
第4 章 数据预处理 4.1 数 据 预 处 理 概 述 4 .1 .1 原 始 数 据 中 存 在 的 问 题 1. 不一致 2. 重复 3. 不完整 4. 含噪声 5. 维度高 6. 数据不平衡 4 .1 .2 数 据 预 处 理 的 方 法 和 功 能 1. 数据清洗(data cleaning) 2. 数据集成(data integration) 3. 数据变换(data transformation) 4. 数据归约(data redu ction) 4.2 数 据 清 洗 4 .2 .1 属 性 选 择 与 处 理 1. 尽可能赋予属性名和属性值明确的含义 2. 统一多数据源的属性值编码 3. 处理唯一属性 4. 去除重复属性 5. 去除可忽略字段 6. 合理选择关联字段 数据仓库与数据挖掘技术 4 .2 .2 空 缺 值处理 1. 忽略该记录 2. 去掉属性 3. 写空缺值 4. 使用默认值 5. 使用属性平均值 6. 使用同类样本平均值 7. 预测最可能的值 4 .2 .3 噪声数据处理 1. 分箱(binning) 2. 聚类(clu stering) 图 4-1 用聚类方法去掉噪声 3. 回归(regression) 数据仓库与数据挖掘技术 4 .2 .4 不平衡数据的处理 4.3 数据集成和变换 4 .3 .1 数据集成 1. 模式匹配 2. 数据冗余 3. 数据值冲突 4 .3 .2 数据变换 1. 平滑(smoothing) 2. 聚集(clustering) 3. 数据概化(generalization) 4. 规范化(normalization) 5. 属性构造 数据仓库与数据挖掘技术 4 .4 数 据 归 约 4 .4 .1 数 据 归 约 的 方 法 4 .4 .2 数 据 立 方 体聚集 图 4 -2 销售数据立方体 图 4 -3 聚集后的销售数据立方体 数据仓库与数据挖掘技术 4 .4 .3 维 归 约 1. 逐步向前选择 2. 逐步向后删除 3. 向前选择和向后删除结合 4. 判定树(dicision tree)归纳 图 4-4 用判定数进行属性归约 5. 基于统计分析的归约 4 .4 .4 数 据 压 缩 4 .4 .5 数 值 归 约 1. 直方图(histogram) 图 4-5 购买数据的单桶直方图 数据仓库与数据挖掘技术 图 4-6 购买数据的等宽直方图(箱宽 5) 2. 聚类 3. 抽样(sampling) 图 4-7 示例数据集 数据仓库与数据挖掘技术 图 4 -8 用户数据按年龄分层抽样 4 . 线性回归 5 . 非线性回归 4 .4 .6 离 散 化 与概念分层生成 图 4 -9 分箱产生的概念分层和离散化 数据仓库与数据挖掘技术 1. 数值数据的离散化与概念分层生成 图4-103-4-5 规则产...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据仓库与数据挖掘技术第四章数据预处理

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部