商业智能平台研究:ETL中的数据质量控制来源:本站原创|作者:cognoschina网编|分类:数据转换|2011-4-1915:30正文评论(0)数据质量一直是ETL工具的一个高级特性,为了解释清楚这个问题,让我们看看oracle的商业ETL工具OracleWarehouseBuilder在数据质量上是如何管理的
ETL难以成功有以下几个难点:1
数据仓库的数据来自于多个数据源,所以数据的一致性很难得到保证,很多情况下需要一种硬性的标准来决定数据的取舍问题
数据格式问题,例如数据缺失,超出数据范围,无效数据格式等等
出现错误之后没有正确的处理问题,导致数据的质量不断的下降
数据一致性问题,处于数据库性能考虑,有时候可能会有意的去掉一些外间或者检查约束
业务逻辑问题
由于数据库在最初设计时就不够严格和谨慎
我们怎么判断数据的质量好坏的呢,一般用户拿原有系统的显示方式查看某一查询条件的数据与用商业智能报表所产生出来的数据进行对比,看有多大的出入,这个可能需要原先系统有足够的能力显示这些数据并且商业智能工具的报表有足够强大的查询和报表展示能力,或者是用商业智能的报表与OLAP运行出来的报表进行对比,看有多大的出入,出入一般都是会存在的,因为数据不可能完全的准确,但是一定要搞清楚哪里数据出现了问题,并且尽量不要让这些误差扩大到用户无法接受的地步,否则就认为BI失败了
(咋同是一个工具做出来的,数据的出入就这么大呢
)oraclewarehousebuilder提供三个特性来使ETL的过程简单1
GraphicalDataProfiler可以查看数据的结构,语义,内容,异常,和大纲,数据规则,这就是在前一篇说的,kettle的数据管理没有oraclewarehousebuilder强大的特性
kettle也提供查看表结构,column的结构,但是它不会判断一个c