第一章1、2011年麦肯锡研究院提出的大数据定义是:大数据是指其大小超出了常规数据库工具获取、储存、管理和()能力的数据集。A:计算B:访问C:应用D:分析答案:分析2、用4V来概括大数据的特点的话,一般是指:Value、Velocity、Volume和()。A:VarietyB:VainlyC:VagaryD:Valley答案:Variety3、大数据分析四个方面的工作主要是:数据分类、()、关联规则挖掘和时间序列预测。A:数据统计B:数据计算C:数据聚类D:数据清洗答案:数据聚类4、新浪和京东联合推出的大数据商品推荐,是由京东盲目推送到当前浏览新浪网站的用户的页面上的。A:对B:错答案:错5、目前的大数据处理技术只能处理结构化数据。A:对B:错答案:错第二章1、我们常用的微软Office套件中的Access数据库软件的数据库文件格式后缀名是()。A:mdfB:mdbC:dbfD:xls答案:mdb2、大多数日志文件的后缀名是()。A:txtB:csvC:xmlD:log答案:log3、本课程重点介绍的weka软件的专有文件格式是()。A:MongoDBB:ARFFC:valueD:keymap答案:ARFF4、数据清洗工作的目的主要是要解决数据的完整性、唯一性、合法性和()。A:专业性B:排他性C:一致性D:共享性答案:一致性5、八爪鱼软件的“自定义采集”工作方式下,需要在软件里输入一个()来作为采集的目标。A:电话号码B:关键词C:网页地址D:用户名答案:网页地址6、八爪鱼软件的采集规则可以通过文件的形式来导入或者导出,这种文件的后缀名是()。A:otdB:jpgC:pngD:gif答案:otd7、Excel可以通过“数据有效性”按钮操作来规范数据输入的范围。A:对B:错答案:对8、Excel不能导入txt或csv格式的文件。A:对B:错答案:错9、八爪鱼软件只能对软件内建了“简易采集”规则的网站采集数据。A:对B:错答案:错10、八爪鱼软件进行自定义采集时,需要了解对网页的页面结构。A:对B:错答案:对第三章1、使用DBSCA限法对莺尾花数据集(Iris.arff)进行聚类,将epsilon参数设置为0.2,minPoints参数设置为5,忽略class属性,那么将形成()个簇。A:1B:2C:3D:4答案:32、使用EM算法对天气数据集(weather.numeric.arff)进行聚类,将numClusters设置为4,即簇数为4,其他参数保持默认值,忽略class属性,从结果中可知,下列选项中,()是错误的。A:模型的最大似然估计值是-7.18B:这组数据用算法迭代15次C:第四个簇的先验概率是0.14D:第四个簇的实例数为4答案:第四个簇的实例数为43、使用SimpleKMeans算法对天气数据集(weather.numeric.arff)进行聚类,保持默认参数,即3个簇以及欧氏距离。选择play属性为忽略属性,从结果中可知,下列选项中,()是错误。A:这组数据用算法迭代四次B:产生了三个中心点C:聚合为3个簇,分别有7,3,4个实例D:平方和误差为8.928答案:这组数据用算法迭代四次4、使用线性回归(LinearRegression)分类器和用M5P分类器对cpu.arff分别进行分类,由其输出的误差指标可知()。5、删去cpu.arff数据文件中的CACH®性后,使用M5P分类器构建方案,在结果中,到达A:LinearRegression的标准误差比M5P的标准误差小B:LinearRegression的平均绝对误差比M5P的平均绝对误差小C:LinearRegression的相对误差比M5P的相对误差小D:LinearRegression的平均方根误差比M5P的平均方根误差大答案:LinearRegression的平均方根误差比M5P的平均方根误差大LM2的实例数有()个。A:165B:21C:23D:30答案:216、根据J48分类器训练weather.nominal.arff所生产的决策树,当outlook=sunny;temperature=cool;humidity=high;windy=TRUE时,分类的结果是()。A:YesB:NoC:没有结果D:无法分类答案:No7、根据J48分类器训练iris.arff所生产的决策树,当sepallength=4.4;sepalwidth=3.0;petallength=1.3;petalwidth=0.2时,分类的结果是()。A:Iris-setosaB:Iris-versicolorC:Iris-virginicaD:无法分类答案:Iris-setosa8、关于Weka离散化说明正确的是()。A:离散化是将数值属性转换为字符串型属性B:有监督离散化有两种等宽和等频方法C:等宽离散化是使实例分布均匀的D:离散化包括无监督离散化和有监督离散化答案:离散化包括无监督离散化和有监督离散化9、以下()不是Weka的数据类型。A:numericB:nominalC:stringD:decimal答案:d...