南开大学2021年9月《大数据开发技术》作业考核试题及答案参考1.大数据处理的关键技术主要包括:数据采集和预处理、数据存储、数据计算架构、数据分析和挖掘、数据可视化展示等。()A.对B.错参考答案:A2.PairRDD中mapValues是针对键值对(Key,Value)类型的数据中的key和Value进行Map操作。()A.正确B.错误参考答案:B3.RDD的flatMap操作是将函数应用于RDD之中的每一个元素,将返回的迭代器(数组、列表等)中的所有元素构成新的RDD。()A.正确B.错误参考答案:A4.关于Strom中Bolt说法错误的是()。A.Bolt可以执行过滤、函数操作、Join、操作数据库等任何操作B.Bolt是一个被动的角色,Spout是一个主动的角色C.Bolt不仅可以处理Tuple还可以创建新的TupleD.Bolt是Streams的状态转换过程的抽象含义参考答案:C5.Scala列表方法中将函数应用到列表的所有元素的方法是()A.filterB.foreachC.mapD.mkString参考答案:B6.spark-submit配置项中()表示启动的executor数量A.--num-executorsNUMB.--executor-memoryMEMC.--total-executor-coresNUMD.--executor-couresNUM参考答案:A7.Scala列表中last返回一个列表,包含除了第一个元素之外的其他元素。()T.对F.错参考答案:F8.计算一个算法时间复杂度通常可以计算循环次数、基本操作的频率或计算步。()A.错误B.正确参考答案:B9.HDFS中SecondaryNameNode可减少()重启的时间A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:A10.SparkGraphX中类Graph的joinVertices方法可以()A.收集邻居顶点的顶点Id和顶点属性B.收集邻居顶点的顶点IdC.向指定顶点发送信息并聚合信息D.将顶点信息更新到图中参考答案:D11.以下哪个函数可以对RDD进行排序()A.sortByB.filterC.distinctD.intersection参考答案:A12.大型图计算通常是由一个集群完成的,集群环境中执行远程数据读取会有较高的延迟。()A.正确B.错误参考答案:A13.()可解决HDFS中名称节点运行期间EditLog不断变大的问题A.NameNodeB.SecondaryNameNodeC.DataNodeD.Block参考答案:B14.SparkStreming中()函数可以对源DStream的每个元素通过函数func返回一个新的DStreamA.mapB.flatMapC.filterD.union参考答案:A15.SparkGraphX中类Graph的reverse方法可以()A.反转图中所有边的方向B.按照设定条件取出子图C.取两个图的公共顶点和边作为新图,并保持前一个图顶点与边的属性D.合并边相同的属性参考答案:A16.聚类分析(Clusteranalysis)简称聚类(Clustering),是把数据对象划分成子集(类)的过程,每个子集称为一个簇(Cluster)。()A.对B.错参考答案:A17.SparkStreming中Dstream是一种抽象的离散流。()T.对F.错参考答案:T18.RDD的()操作通常用来划分单词A.filterB.unionC.flatmapD.mapPartitions参考答案:C19.流计算系统的需求有()。A.实时性B.廉价C.高性能D.高带宽E.分布式参考答案:ACE20.用户可以在HadoopYARN上运行Spark。()T.对F.错参考答案:T21.图是一种数据元素间为()关系的数据结构A.多对多B.一对一C.一对多D.多对一参考答案:A22.对于不同顶点之间的信息交换,Pregel采用了()A.远程数据读取B.共享内存C.纯消息传递模型D.共享消息参考答案:C23.数据仓库、专家系统产生于大数据发展的成熟期。()A.正确B.错误参考答案:B24.按照数据量的大小,可将数据分析分为内存级数据分析、Bl级数据分析和海量级数据分析。()A.对B.错参考答案:A25.MLlib中进行数据标准化的方式有()A.NormalizerB.StandardC.StandardScaleerD.MinMaxScaler参考答案:ACD26.下列哪一种算法不是随机化算法?()A.蒙特卡罗算法B.拉斯维加斯算法C.动态规划算法D.舍伍德算法参考答案:C27.Hive提供了大数据批处理计算功能。()A.正确B.错误参考答案:B28.Scala函数组合器可以通过一个函数重新计算列表中所有元素,并且返回一个相同数目元素的新列表的方法是()A.mapB.foreachC.flattenD.flatmap参考答案:A29.分支限界法主要有队列式(FIFO)分支限界法和优先队列式分支限界法。()A.错误B.正确参考答案:B30.以下哪种数据库适合于批量数据处理和即席查询()A.MySQLB.OracleC.HbaseD.NosSQL参考答案:C