《海量数据挖掘技术及工程实践》题目一、单选题(共 80 题)1) ( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到和原始数据相同的分析结果
数据清洗 B
数据变换 D
数据归约2) 某超市讨论销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题
关联规则发现 B
自然语言处理3) 以下两种描述分别对应哪两种对分类算法的评价标准
(A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准
(b)描述有多少比例的小偷给警察抓了的标准
Precision,Recall B
Recall,Precision A
Precision,ROC D
Recall,ROC4) 将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务
频繁模式挖掘 B
分类和预测 C
数据预处理 D
数据流挖掘5) 当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离
关联分析 D
隐马尔可夫链6) 建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的哪一类任务
根据内容检索 B
建模描述 C
预测建模 D
寻找模式和规则7) 下面哪种不属于数据预处理的方法
变量代换 B
估量遗漏值 8) 假设 12 个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱
等频(等深)划分时,15 在第几个箱子内
第四个 9) 下面哪个不属于数据的属性类型: