数据挖掘概念与技术习题答案-

下载本文档

阅读 157
下载 11
格式 pdf
大小 265.33 KB
约6页
2025-02-01 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/6页

2/6页

3/6页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

数据挖掘概念与技术（原书第 3 版）第三章课后习题及解答3.7 习题3.1 数据质量可以从多方面评估，包括准确性、完整性和一致性问题。对于以上每个问题，讨论数据质量的评估如何依赖于数据的应用目的，给出例子。提出数据质量的两个其他尺度。答：数据的质量依赖于数据的应用。准确性和完整性：如对于顾客的地址信息数据，有部分缺失或错误，对于市场分析部门，这部分数据有 80%是可以用的，就是质量比较好的数据，而对于需要一家家拜访的销售而言，有错误地址的数据，质量就很差了。一致性：在不涉及多个数据库的数据时，商品的编码是否一致并不影响数据的质量，但涉及多个数据库时，就会影响。数据质量的另外三个尺度是时效性，可解释性，可信性。3.2 在现实世界的数据中，某些属性上缺失值得到元组是比较常见的。讨论处理这一问题的方法。答：对于有缺失值的元组，当前有 6 种处理的方法：（1）忽略元组：当缺少类标号时通常这么做（假定挖掘任务涉及分类）。除非元组有多个属性缺少值，否则该方法不是很有效。当每个属性缺失值的百分比变化很大时，它的性能特别差。采用忽略元组，你不能使用该元组的剩余属性值。这些数据可能对手头的任务是有利的。（2）人工填写缺失值：一般来说，该方法很费时，并且当数据集很大、缺失值很多时，该方法可能行不通。（3）使用一个全局常量填充缺失值：将缺失的属性值用同一个常量（如“ unknown”或-）替换。如果缺失值都用“unknown”替换，则挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“unknown”。因此，尽管该方法简单，但是并不十分可靠。（4）使用属性的中心度量（如均值或中位数）填充缺失值：第 2 章讨论了中心趋势度量，它们指示数据分布的“中间”值。对于正常的（对称的）数据分布，可以使用均值，而倾斜分布的数据则应使用中位数。。（5）使用与给定元组属同一类的所有样本的属性均值或中位数（6）使用最可能的值填充缺水值：可以用回归、使用贝叶斯形式化方法的基于推理的工具或决策树归纳确定。3.3 在习题 2.2 中，属性 age 包括如下值（以递增序）：13，15，16，16，19，20，20，21，22，22，25，25，25，25，30，33，33，35，35，35，35，36，40，45，46，52，70.(a)使用深度为 3 的箱，用箱均值光滑以上的数据。说明你的步骤，讨论这种技术对给定数据的效果。答：首先将排好序的 age 数据划分到大小为 3 的等频的箱中，如下：13，15，16...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据挖掘概念与技术习题答案-

数据挖掘概念与技术（原书第 3 版）第三章课后习题及解答3

1 数据质量可以从多方面评估，包括准确性、完整性和一致性问题

对于以上每个问题，讨论数据质量的评估如何依赖于数据的应用目的，给出例子

提出数据质量的两个其他尺度

答：数据的质量依赖于数据的应用

准确性和完整性：如对于顾客的地址信息数据，有部分缺失或错误，对于市场分析部门，这部分数据有 80%是可以用的，就是质量比较好的数据，而对于需要一家家拜访的销售而言，有错误地址的数据，质量就很差了

一致性：在不涉及多个数据库的数据时，商品的编码是否一致并不影响数据的质量，但涉及多个数据库时，就会影响

数据质量的另外三个尺度是时效性，可解释性，可信性

2 在现实世界的数据中，某些属性上缺失值得到元组是比较常见的

讨论处理这一问题的方法

答：对于有缺失值的元组，当前有 6 种处理的方法：（1）忽略元组：当缺少类标号时通常这么做（假定挖掘任务涉及分类）

除非元组有多个属性缺少值，否则该方法不是很有效

当每个属性缺失值的百分比变化很大时，它的性能特别差

采用忽略元组，你不能使用该元组的剩余属性值

这些数据可能对手头的任务是有利的

（2）人工填写缺失值：一般来说，该方法很费时，并且当数据集很大、缺失值很多时，该方法可能行不通

（3）使用一个全局常量填充缺失值：将缺失的属性值用同一个常量（如“ unknown”或-）替换

如果缺失值都用“unknown”替换，则挖掘程序可能误以为它们形成了一个有趣的概念，因为它们都具有相同的值——“unknown”

因此，尽管该方法简单，但是并不十分可靠

（4）使用属性的中心度量（如均值或中位数）填充缺失值：第 2 章讨论了中心趋势度量，它们指示数据分布的“中间”值

对于正常的（对称的）数据分布，可以使用均值，而倾斜分布的数据则应使用中位数

（5）使用与给定元组属同一类的所有样本的属性均

文库响当当 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

数据挖掘概念与技术习题答案-

数据挖掘概念与技术习题答案-

您可能关注的文档

相关文档

热门下载

相关标签