大 数 据 分布 并 行 处 理 试 题 及 答 案 RDD 是 Spark 提 供 的 核 心 抽 象 , 全 称 为 Resillient Distributed Dataset, 只 能 通 过 文件 创 建 。 [判 断 题 ] 对 错 (正 确 答 案 ) spark 中 的 map 和 flatmap 算 子 的 区 别 是 flatmap 可 以 返 回 多 条 元 素 [判 断 题 ] 对 (正 确 答 案 ) 错 下 面 哪 个 算 子 容 易 导 致 driver 端 内 存 溢 出 ? [单 选 题 ] map count collect(正 确 答 案 ) take 哪 一 种 持 久 化 策 略 表 示 只 存 储 到 内 存 , 并 且 不 序 列 化 。 [单 选 题 ] MEMORY_ONLY(正 确 答 案 ) cache() MEMORY_AND_DISK MEMORY_ONLY_SER spark 中 的 广 播 变 量 可 以 保 证 每 个 Executor 内 部 只 保 存 1 份 变 量 数 据 。 [判 断 题 ] 对 错 (正 确 答 案 ) spark 中 在 划 分 Stage 的 时 候 , 遇 到 窄 依 赖 就 会 划 分 出 前 后 两 个 Stage。 [判 断 题 ] 对 错 (正 确 答 案 ) spark 中 的 持 久 化 , 只 是 将 数 据 保 存 在 内 存 中 或 者 本 地 磁 盘 文 件 中 , RDD 的lineage(血 缘 关 系 )是 不 变 的 。 [判 断 题 ] 对 (正 确 答 案 ) 错 HBase 属 于 基 于 键 值 对 类 型 的 NoSQL 数 据 库 。 [判 断 题 ] 对 (正 确 答 案 ) 错 针 对 HBase 的 应 用 场 景 的 介 绍 , 错 误 的 是 : [单 选 题 ] 适 合 半 结 构 和 非 结 构 数 据 适 合 存 储 记 录 稀 疏 的 数 据 适 合 存 储 多 版 本 数 据 适 合 海 量 数 据 分 析 (正 确 答 案 ) HBase 中 不 支 持 数 字 和 字 符 串 数 据 类 型 。 [判 断 题 ] 对 (正 确 答 案 ) 错 HBase 中 , 每 一 行 数 据 中 的 Rowkey 字 段 不 是 必 须 的 , 可 以 为 null。 [判 断 题 ] 对 错 (正 确 答 案 ) HBase 中 在 建 表 的 时 候 , 列 族 必 须 指 定 , 并 且 后 期 无 法 修 改 。 [判 断 题 ] 对 错 (正 确 答 案 ) HBas...