数据挖掘考试题一.选择题1.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()2.()将两个簇的邻近度定义为不同簇的所有点对邻近度的平均值,它是一种凝聚层次聚类技术。“啤酒与尿布试验”最主要是应用了()数据挖掘方法。A分类B预测C关联规则分析D聚类4•关于K均值和DBSCAN的比较,以下说法不正确的是()A.K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。B.K均值使用簇的基于原型的概念,DBSCAN使用基于密度的概念。C.K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇D.K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇'sMethod说法错误的是:()C.对于Ward方法,两个簇的邻近度定义为两个簇合并时导致的平方误差D.当两个点之间的邻近度取它们之间距离的平方时,Ward方法与组平均非常相似6.下列关于层次聚类存在的问题说法正确的是:()A.具有全局优化目标函数B.GroupAverage擅长处理球状的簇C.可以处理不同大小簇的能力D.Max对噪声点和离群点很敏感7.下列关于凝聚层次聚类的说法中,说法错误的事:()A.—旦两个簇合并,该操作就不能撤销8.规则{牛奶,尿布}—{啤酒}的支持度和置信度分别为:()TID项集1{面包,牛奶}2{面包,尿布,啤酒,鸡蛋}3{牛奶,尿布,啤酒,可乐}4{面包,牛奶,尿布,啤酒}5{面包,牛奶,尿布,可乐}9•下列()是属于分裂层次聚类的方法。10•对下图数据进行凝聚聚类操作,簇间相似度使用MAX计算,第二步是哪两个簇合并:()11I2I3I4I5