第4 章 数据预处理 4
1 数 据 预 处 理 概 述 4
1 原 始 数 据 中 存 在 的 问 题 1
数据不平衡 4
2 数 据 预 处 理 的 方 法 和 功 能 1
数据清洗(data cleaning) 2
数据集成(data integration) 3
数据变换(data transformation) 4
数据归约(data redu ction) 4
2 数 据 清 洗 4
1 属 性 选 择 与 处 理 1
尽可能赋予属性名和属性值明确的含义 2
统一多数据源的属性值编码 3
处理唯一属性 4
去除重复属性 5
去除可忽略字段 6
合理选择关联字段 数据仓库与数据挖掘技术 4
2 空 缺 值处理 1
忽略该记录 2
去掉属性 3
写空缺值 4
使用默认值 5
使用属性平均值 6
使用同类样本平均值 7
预测最可能的值 4
3 噪声数据处理 1
分箱(binning) 2
聚类(clu stering) 图 4-1 用聚类方法去掉噪声 3
回归(regression) 数据仓库与数据挖掘技术 4
4 不平衡数据的处理 4
3 数据集成和变换 4
1 数据集成 1
模式匹配 2
数据冗余 3
数据值冲突 4
2 数据变换 1
平滑(smoothing) 2
聚集(clustering) 3
数据概化(generalization) 4
规范化(normalization) 5
属性构造 数据仓库与数据挖掘技术 4
4 数 据 归 约 4
1 数 据 归 约 的 方 法 4
2 数 据 立 方 体聚集 图 4 -2 销售数据立方体 图 4 -3 聚集后