一、 DataStage 简介 Websphere DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据中心(数据仓库)目标数据库的集成工具
DataStage 能够处理多种数据源的数据,包括主机系统上的大型数据库、开放系统上的关系型数据库和普通的文件系统等
常见的主要数据源有: ➢ 大型主机系统的数据库:IMS、DB2、ADABAS、VSAM 等
➢ 开发系统的关系型数据库:Informix、Oracle、Sybase、DB2、Microsoft SQL Server等
➢ ERP 系统:SAP/R3、PeopleSoft 等
➢ 普通文件和复杂文件系统,FTP 文件系统,XML 等
➢ IIS、Netscape、Apache 等 Web 服务器系统
➢ Outlook 等 Email 系统
DataStage 可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面
其中每步都可以在图形化工具里完成,同样可以灵活的被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能
其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率
二 、 DataStage 工作原 理 1A1ClientDesignerIMSDB2ADABASVSAMOracleDB2SybaseInformixSQL ServerXMLPeopleSoftEMCFisrtLogicTrilliumComplexFlat FilesFTPIISApacheNetsca