数据挖掘考试题一.选择题1
当不知道数据所带标签时,可以使用哪种技术促使带同类标签得数据与带其她标签得数据相分离
分类 B、聚类 C
关联分析 D
主成分分析2
( )将两个簇得邻近度定义为不同簇得所有点对邻近度得平均值,它就是一种凝聚层次聚类技术
MIN(单链) B
MAX(全链) C、组平均 D
Wa r d 方法3、数据挖掘得经典案例“啤酒与尿布试验”最主要就是应用了( )数据挖掘方法、 A 分类 B 预测 C 关联规则分析 D 聚类4
关于 K 均值与 DB S CAN 得比较,以下说法不正确得就是( )A
K 均值丢弃被它识别为噪声得对象,而 DBS CA N 一般聚类所有对象
B、K均值使用簇得基于原型得概念,DBSC AN使用基于密度得概念
K 均值很难处理非球形得簇与不同大小得簇,DBSCAN 可以处理不同大小与不同形状得簇D
K 均值可以发现不就是明显分离得簇,即便簇有重叠也可以发现,但就是 DBSCAN 会合并有重叠得簇5、下列关于 War d's M ethod 说法错误得就是:( )A、对噪声点与离群点敏感度比较小B、擅长处理球状得簇C
对于 Ward 方法,两个簇得邻近度定义为两个簇合并时导致得平方误差D
当两个点之间得邻近度取它们之间距离得平方时,Wa r d 方法与组平均非常相似6
下列关于层次聚类存在得问题说法正确得就是:( )A
具有全局优化目标函数B
Grou p A verage 擅长处理球状得簇C
可以处理不同大小簇得能力D
Ma x对噪声点与离群点很敏感7
下列关于凝聚层次聚类得说法中,说法错误得事:( )A
一旦两个簇合并,该操作就不能撤销B、算法得终止条件就是仅剩下一个簇C
空间复杂度为D
具有全局优化目标函数8
规则{牛奶,尿布}→{啤酒}得支持度与置信度分别为:( )TID 项 集12345