kettle 的并行,集群和分区 January 4th, 2011 by ahuoo Leave a reply » 当 你 有 很 多 数 据 要 处 理 的时 候 ,能 够 有 效 地 使 用 所 有 的计 算 资 源 是 非 常 重 要 的
不 管 是 台 个 人 电脑 ,还 是 有 数 百 台 服 务 器 ,你 都 想 让 Kettle 能 尽 可 能 的使 用 所 有 可 用 的计 算 资 源 ,并在 可 接 受的时 间 范 围 内 获 取 执 行结 果
在 这 一 章 节 ,我 们 将 解 开 kettle 的转 换 和作 业 在 垂 直 扩 展 和水 平 扩 展 方 面 的秘 密
垂 直 扩 展 是 尽可 能 的使 用 单 台 服 务 器 上 的多 CPU 核
水 平 扩 展 是 使 用 多 台 机 器 资 源 ,使 他 们 并行计 算
这 两种 方 法 都 是 ETL 子 系 统 的一 部 分( #31,并行/流 水 线 系 统 )
章 节 的第 一 部 分先 谈 谈 转 换 内 部 的并行机 制 和多 种 使 用 其 进 行垂 直 扩 展 的方 法
然 后 我 们 讲 解 怎样 在 子 服 务 器 集群环 境 下 进 行水 平 扩 展 转 换
最 后 我 们 讲 讲 kettle 分区的一 些 具 体 细 节 ,利 用 分区进 一 步 提 升并行计 算 的性能
一 、多 线 程 在 章 节 2 中,我 们 已经了解 了转 换 的基本组成部 分是 步 骤,而且每个 步 骤是 并行执 行的
现在我 们 将 更深入这 一 话题,解 释kettle 的多 线 程能 力怎 样 使 你 更充分利 用 机 器 所 有 的计 算 资 源 ,垂直 扩 展 一 个 转 换
默认情况下 ,转 换 中的每一 个 步 骤都 是 在 单 一 隔