数据挖掘概念与技术(原书第 3 版)第三章课后习题及解答3
1 数据质量可以从多方面评估,包括准确性、完整性和一致性问题
对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子
提出数据质量的两个其他尺度
答:数据的质量依赖于数据的应用
准确性和完整性:如对于顾客的地址信息数据,有部分缺失或错误,对于市场分析部门,这部分数据有 80%是可以用的,就是质量比较好的数据,而对于需要一家家拜访的销售而言,有错误地址的数据,质量就很差了
一致性:在不涉及多个数据库的数据时,商品的编码是否一致并不影响数据的质量,但涉及多个数据库时,就会影响
数据质量的另外三个尺度是时效性,可解释性,可信性
2 在现实世界的数据中,某些属性上缺失值得到元组是比较常见的
讨论处理这一问题的方法
答:对于有缺失值的元组,当前有 6 种处理的方法:(1)忽略元组:当缺少类标号时通常这么做(假定挖掘任务涉及分类)
除非元组有多个属性缺少值,否则该方法不是很有效
当每个属性缺失值的百分比变化很大时,它的性能特别差
采用忽略元组,你不能使用该元组的剩余属性值
这些数据可能对手头的任务是有利的
(2)人工填写缺失值:一般来说,该方法很费时,并且当数据集很大、缺失值很多时,该方法可能行不通
(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常量(如“ unknown”或-)替换
如果缺失值都用“unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值——“unknown”
因此,尽管该方法简单,但是并不十分可靠
(4)使用属性的中心度量(如均值或中位数)填充缺失值:第 2 章讨论了中心趋势度量,它们指示数据分布的“中间”值
对于正常的(对称的)数据分布,可以使用均值,而倾斜分布的数据则应使用中位数
(5)使用与给定元组属同一类的所有样本的属性均