数据仓库的数据标准化思路数据标准化对于大型公司而言,各个下层子公司都使用自己本地的业务系统,当这些子公司数据往上汇总到总公司时,常常出现代码不一致,数据歧义等等各种各样的问题,在这种情况下,数据标准化就变得不得不行了。典型的例子,比如医院,大型医院往往包含多个分院,而分院都是用自己的业务系统。业务数据采集汇总后,发现数据结构及数据本身出现歧义,无法直接使用。因此,就不得不对本院及分院的业务数据进行标准化处理,避免歧义,使数据更真实可用,简单易理解。数据标准化处理应当注意两个关键点:1.一号对应一对象。以病人为例,病人可能在各分院及本院都注册建档,因此同一病人可能在各分院都有不同的ID 号,但数据采集到本院,与本院数据合并后,进行标准化处理,应保证此病人具有新的唯一ID 号。同时需保留病人曾经的各分院及本院ID 号,便于其他分院数据的关联(如分院的病人缴费数据需要关联原始分院号码,之后以标准化后唯一ID 号,进入本院系统)。2.事实数据标明数据来源。如病人缴费信息,因为缴费事实产生的位置不同,需要进行来源标注,分清本院及各分院,便于数据理解及之后的查询和统计。在构建 DW时的数据标准化处理流程上,可以考虑通过以下方式来完成。标准化准备在标准化处理之前,需要对DW表格结构进行一些处理,使得标准化过程易于实施,也保证标准化的结果更易于理解。对于不同的表格上,所需新增的字段也不尽相同。下面分类进行说明:维表比如病人信息,科室信息,员工信息,设备信息等,新加字段如下:字段名类型说明备注ID数字代理键,主键由序列生成,新的唯一ID 号HISTORY_IDLIST文本曾经使用的编号列表对应分院 +分院 ID 号,以 ; 分隔START_DATE日期记录生效时间拉链使用,可选END_DATE日期记录失效时间拉链使用,可选事实表如病人缴费,医生处方,手术记录等,新加字段如下:字段名类型说明备注SOURCE_ID数字数 据 来 源 , 本院、分院表示数据来源;应新增本院 /分院信息维表, 记录 source_id 对应的分院名,地址,热线等信息ARCHIVE_FLAG文本记 录 是 否 可 归档(Y/N)对于已处理完成的信息,如病人已出院, 进行可归档标记;DW 保留一段时间后,可考虑部分归档数据迁移到二级存储,减轻压力START_TIME日期记录生效时间拉链使用,可选END_DATE日期记录失效时间拉链使用,可选数据标准化处理在数据标准化的处理过程中,也应分为两步进行处理,先进行维表的代码...