ETL 过程中执行哪些操作
ETL 表示提取、转换和加载
在提取过程中,必须从许多不同的数据源(包括数据库系统和应用程序)中标识并提取所需的数据
通常情况下,无法标识相关的特定数据子集,这意味着必须先提取多余的数据,并在稍后的时刻标识相关数据
根据源系统的功能(例如,OS 资源),此提取过程中可能会发生某些转换
提取的数据大小少则数百 KB ,多则数百 GB ,具体情况取决于源系统和业务情况
两个(逻辑上)相同的提取之间的时间间隔也存在这种情况:时间跨度从数天/小时和分钟一直到近乎实时
例如,Web 服务器日志文件的大小可在极短的时间内轻松地增至数百 MB
提取数据后,需要将其物理传输到目标系统或中间系统进行进一步的处理
根据所选择的传输方法,在此过程中也可能会进行某些转换
例如,通过网关直接访问远程目标的 SQL 语句可以在 SELECT 语句中连接两列
提取并传输数据后,将执行 ETL 中最具挑战性 (并且 最耗 时)的过程:转换并加载到目标系统中
该 过程可能包括: 应用复 杂 的过滤 器 必须对 照 目标数据库表中已 经 存在的信 息 验 证 数据 必须对 照 目标对 象 检 查 在不知 道 新 信 息 与 已 更 改 信 息 的情况下提取的数据,以决定是 否 必须更 新 或插 入该 数据 必须以细 节 级 别 和聚 合 信 息 的形 式 多次 插 入 同一数据 该 过程应在可伸 缩 的方式 下尽 快 完 成 ,并且 不能影 响 为 检 索 信 息 而 对 现 有 目标进行的并发访问
Oracle 提供 了 各 种功能来 解 决 ETL 情形 中所有 相关的问题 和任 务
Oracle 数据库 10 g 是 ETL 转换引 擎
返 回 主 题 列表 前 提条 件 开 始 本 教 程之前 ,您 应该 : 1
完 成 了 教 程在 Windows 上安