1 一、填空题:(每题6 分 , 共 30 分 ) 1. 数据挖掘的主要问题包括: 。 2. 数据挖掘的性能问题包括: 。 3. 数据挖掘的分类方法有 。 4. 数据挖掘的聚类方法有 。 5.数据挖掘的基本步骤是 。 二、问答题: (每题6 分,共30 分 ) 1.对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么?讨论哪种方法最有效,在什么条件下最有效。 2.数据仓库和数据库有何不同?它们有那些相似之处? 3.在现实世界的数据中,元组在某些属性上缺少值是常有的。描述处理该问题的各种方法。 4. 试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法。 5.为什么说强关联规则不一定都是有趣的,举例说明。 三、证明题(10 分 ) 1. 证明频繁集的所有非空子集必须也是频繁的。 2. Apriori 的一种变形将事务数据库D 中的事务划分为个不重叠的部分。证明在D 中是频繁的任何项集至少在D 中的一个部分中是频繁的。 四、算法分析与扩展(15 分 ) 1 .描述判定树算法的思想。 2.写出比较易懂的算法伪代码 3.指出算法的不足之处,应该从哪些方面增强算法的功能和性能。 五、计算题(15 分) 给定两个对象,分别用元组(22, 1, 42, 10),( 20, 0, 36, 8)表示。 1. 计算两个对象之间的欧几里德距离; 2. 计算两个对象之间的蔓哈坦距离; 3. 给定年龄变量的如下度量值 18, 22, 25, 42, 28, 43, 33, 35, 56, 28 计算age 的平均绝对偏差。 2 一、填空题:(每题6 分 , 共 30 分 ) 1.数据挖掘是一个多学科领域,这些学科包括: 数据库系统、统计学、机器学习、可视化、信息科学。 2.数据挖掘的功能有 特征化和区分、关联分析、分类和预测、聚类分析、孤立点分析、演变分析。 3.数据挖掘的分类方法有判定树算法,贝叶斯方法,神经网络,K-最近邻分类,基于案例的推理,遗传算法,粗糙集方法,模糊集方法等。 4.数据挖掘的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法、基于模型的方法。 5.多媒体数据挖掘主要有 多媒体数据相似性搜索、多媒体数据多维分析、多媒体数据的分类与预测分析 多媒体数据的关联规则挖掘。 二、问答题: (每题6 分,共30 分 ) 1.数据仓库和数据库有何不同?它们有哪些相似之处? 答:区别:数据仓库是面向主题的,集成的,不易更改...