第 1 页 共 9 页 数据仓库与数据挖掘技术复习资料 一、单项选择题 1. 数据挖掘技术包括三个主要的部分 ( C ) A.数据、模型、技术 B.算法、技术、领域知识 C.数据、建模能力、算法与技术 D.建模能力、算法与技术、领域知识 2.关于基本数据的元数据是指: ( D ) A.基本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息; B.基本元数据包括与企业相关的管理方面的数据和信息; C.基本元数据包括日志文件和简历执行处理的时序调度信息; D.基本元数据包括关于装载和更新处理,分析处理以及管理方面的信息。 3. 关于 OLAP和 OLTP的说法,下列不正确的是: ( A) A.OLAP 事务量大,但事务内容比较简单且重复率高 B.OLAP 的最终数据来源与 OLTP 不一样 C.OLTP 面对的是决策人员和高层管理人员 D.OLTP 以应用为核心,是应用驱动的 4.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?( C ) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5.下面哪种不属于数据预处理的方法? ( D ) A.变量代换 B.离散化 C. 聚集 D. 估计遗漏值 6. 在 ID3 算法中信息增益是指( D ) A.信息的溢出程度 B.信息的增加效益 C.熵增加的程度最大 D.熵减少的程度最大 7. 以下哪个算法是基于规则的分类器 ( A ) A. C4.5 B. KNN C. Bayes D. ANN 8. 以下哪项关于决策树的说法是错误的( C ) A.冗余属性不会对决策树的准确率造成不利的影响 B.子树可能在决策树中重复多次 C.决策树算法对于噪声的干扰非常敏感 D.寻找最佳决策树是 NP完全问题 9. 假设收入属性的最小与最大分别是 10000和 90000,现在想把当前值 30000映射到区间[0,1],若采用最大-最小数据规范方法,计算结果是( A ) 第 2 页 共 9 页 A. 0.25 B. 0.375 C.0.125 D. 0.5 10. 在抽样方法中,当合适的样本容量很难确定时,可以使用的抽样方法是: ( D ) A.有放回的简单随机抽样 B.无放回的简单随机抽样 C.分层抽样 D.渐进抽样 11. 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?( B) A. 分类 B.聚类 C. 关联分析 D. 隐马尔可夫链 12. 设X={1,2,3}是频繁项集,则可由X产生( C )个关联规则。 A.4 B.5 C.6 D.7 13.( C )将两个簇的邻近度定义为不同簇的所有点...