一、 DataStage 简介 Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具。 DataStage 能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统上的关系型数据库和普通的文件系统等。 常见的主要数据源有: ➢ 大型主机系统的数据库:IMS、DB2、ADABAS、VSAM 等。 ➢ 开发系统的关系型数据库:Informix、Oracle、Sybase、DB2、Microsoft SQL Server等。 ➢ ERP 系统:SAP/R3、PeopleSoft 等。 ➢ 普通文件和复杂文件系统,FTP 文件系统,XML 等。 ➢ IIS、Netscape、Apache 等 Web 服务器系统。 ➢ Outlook 等 Email 系统。 DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率 。 二 、 DataStage 工作原 理 1A1ClientDesignerIMSDB2ADABASVSAMOracleDB2SybaseInformixSQL ServerXMLPeopleSoftEMCFisrtLogicTrilliumComplexFlat FilesFTPIISApacheNetscapeOutlookDataStageServerManagerBWDWDMReportingData MiningQueryAnaiyticApplications【Data Quality Assurance】Meta Data ManagermentDataStage XEArchitecture Overview DataStage 的设计是基 于 数据流 的概 念 。一个完整 的数据流 图(DataStage 作业),从一个永 久 存 储 的数据源开始 ,并且执 行一系列 的增值 转换和其他处理操作,最 后 加 载数据到一个永 久 的存 储 。 数据集(Data Set)就是对通过数据流程的记录的收集。一个数据集可以是屋里放置在磁盘上,也可以是虚拟放置在内存中。数据在数据流中的Stage 中移动使用的是虚拟的数据集,这样可以大大提高性能;分区(在后面介绍)是在Stage 的属性中设置的。 三、 DataStage 运行程序(工具)介绍 1. DataStage 服务 安装完成 DataStage 后会在系统中...