大数据分布并行处理试题及答案RDD是Spark提供的核心抽象,全称为ResillientDistributedDataset,只能通过文件创建
[判断题]对错(正确答案)spark中的map和flatmap算子的区别是flatmap可以返回多条元素[判断题]对(正确答案)错下面哪个算子容易导致driver端内存溢出
[单选题]mapcountcollect(正确答案)take哪一种持久化策略表示只存储到内存,并且不序列化
[单选题]MEMORY_ONLY(正确答案)cache()MEMORY_AND_DISKMEMORY_ONLY_SERspark中的广播变量可以保证每个Executor内部只保存1份变量数据
[判断题]对错(正确答案)spark中在划分Stage的时候,遇到窄依赖就会划分出前后两个Stage
[判断题]对错(正确答案)spark中的持久化,只是将数据保存在内存中或者本地磁盘文件中,RDD的lineage(血缘关系)是不变的
[判断题]对(正确答案)错HBase属于基于键值对类型的NoSQL数据库
[判断题]对(正确答案)错针对HBase的应用场景的介绍,错误的是:[单选题]适合半结构和非结构数据适合存储记录稀疏的数据适合存储多版本数据适合海量数据分析(正确答案)HBase中不支持数字和字符串数据类型
[判断题]对(正确答案)错HBase中,每一行数据中的Rowkey字段不是必须的,可以为null
[判断题]对错(正确答案)HBase中在建表的时候,列族必须指定,并且后期无法修改
[判断题]对错(正确答案)HBase中,针对具有多个历史版本数据的字段,会按照时间戳正序排序
[判断题]对错(正确答案)HBase中的数据是按照Rowkey正序排序存储的
[判断题]对(正确答案)错向HBase的表t1中添加数据,写法正确的是:[单选题]put't1�