1 一、填空题:(每题6 分 , 共 30 分 ) 1
数据挖掘的主要问题包括:
数据挖掘的性能问题包括:
数据挖掘的分类方法有
数据挖掘的聚类方法有
5.数据挖掘的基本步骤是
二、问答题: (每题6 分,共30 分 ) 1
对于类特征化,基于数据立方体的实现与诸如面向属性归纳的关系实现之间的主要不同是什么
讨论哪种方法最有效,在什么条件下最有效
数据仓库和数据库有何不同
它们有那些相似之处
在现实世界的数据中,元组在某些属性上缺少值是常有的
描述处理该问题的各种方法
试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法,而不愿使用查询驱动的方法
为什么说强关联规则不一定都是有趣的,举例说明
三、证明题(10 分 ) 1. 证明频繁集的所有非空子集必须也是频繁的
2. Apriori 的一种变形将事务数据库D 中的事务划分为个不重叠的部分
证明在D 中是频繁的任何项集至少在D 中的一个部分中是频繁的
四、算法分析与扩展(15 分 ) 1
描述判定树算法的思想
写出比较易懂的算法伪代码 3
指出算法的不足之处,应该从哪些方面增强算法的功能和性能
五、计算题(15 分) 给定两个对象,分别用元组(22, 1, 42, 10),( 20, 0, 36, 8)表示
1. 计算两个对象之间的欧几里德距离; 2. 计算两个对象之间的蔓哈坦距离; 3. 给定年龄变量的如下度量值 18, 22, 25, 42, 28, 43, 33, 35, 56, 28 计算age 的平均绝对偏差
2 一、填空题:(每题6 分 , 共 30 分 ) 1
数据挖掘是一个多学科领域,这些学科包括: 数据库系统、统计学、机器学习、可视化、信息科学
数据挖掘的功能有 特征化和区分、关联分析、分类和预测、聚类