大数据分布并行处理试题及答案RDD 是 Spark 提供的核心抽象,全称为 ResillientDistributedDataset,只能通过文件创建
[判断题]对错(正确答案)spark 中的 map 和 flatmap 算子的区别是 flatmap 可以返回多条元素[判断题]对(正确答案)错下面哪个算子容易导致 driver 端内存溢出
[单选题]mapcountcollect(正确答案)take哪一种持久化策略表示只存储到内存,并且不序列化
[单选题]MEMORY_ONLY 正确答案)cache()MEMORY_AND_DISKMEMORY_ONLY_SERspark 中的广播变量可以保证每个 Executor 内部只保存 1 份变量数据
[判断题]对错(正确答案)spark 中在划分 Stage 的时候,遇到窄依赖就会划分出前后两个 Stage
[判断题]对错(正确答案)spark 中的持久化,只是将数据保存在内存中或者本地磁盘文件中,RDD 的lineage(血缘关系)是不变的
[判断题]对(正确答案)错HBase 属于基于键值对类型的 NoSQL 数据库
[判断题]对(正确答案)错针对 HBase 的应用场景的介绍,错误的是:[单选题]适合半结构和非结构数据适合存储记录稀疏的数据适合存储多版本数据适合海量数据分析(正确答案)HBase 中不支持数字和字符串数据类型
[判断题]对(正确答案)错HBase 中,每一行数据中的 Rowkey 字段不是必须的,可以为 null
[判断题]对错(正确答案)HBase 中在建表的时候,列族必须指定,并且后期无法修改
[判断题]对错(正确答案)HBase 中,针对具有多个历史版本数据的字段,会按照时间戳正序排序
[判断题]对错(正确答案)HBase 中的数据是按照 Rowkey 正序排序存储的
[判断题]对(正确答案)错向 H