1 数据仓库导论 §1
1 数据仓库的发展 大家知道,管理信息系统早已成功地应用于全球的各行各业,并积累了大量的数据,基本上满足了用户对数据存储、查询和统计的需要,应该说,管理信息系统的成功得益于数据库技术的进一步完善
随着社会的发展和技术的进步,信息已成为人类社会中除了物质、能源之外的第三大资源,社会的信息化,使信息量急剧增长,大量的信息来不及组织和处理
面对急剧增长的信息,对数据库系统的应用只停留在查询、统计等几个方面,远远没有发挥数据库中数据的作用和价值
正如奈斯比特在《大趋势》中所说的:“我们正在被信息所淹没,但我们却由于缺乏知识而感到饥饿
”数据库容量的指数增长和对数据库应用的贫乏形成了强烈的反差,导致了大量的数据垃圾
由于大量的历史数据分布在不同的系统平台上,具有多种存储形式,放在不同的数据库中,难以综合访问,因而有人把这些数据称为“数据坟墓”
另一方面,作为企业的领导和决策者希望从这些复杂的数据中得到有用决策数据
比如,超市的经营者希望知道哪些商品被同时购买,以便把它们放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征,那类人是它们的最大客户群;医学研究人员希望从已有的成千上万份病例中找出患某种疾病的病人的共同特征,从而为治愈这种疾病体提供一些帮助等等
对于这些问题,现有的管理信息系统中的数据分析工具很难给出答案,即传统的数据库应用系统并不能很好的支持决策,因为它是面向业务操作设计的,无论是查询、统计还是生成报表,其处理方式都是对指定的数据进行简单的数字处理
不能对这些数据所包含的内在信息进行提取
因此,企业需要新的技术来弥补原有数据库系统的不足
一、数据仓库概念的提出 如何有效的管理公司和企业在运营过程中产生的大量数据和信息一直是 IT 业面临的重要问题
20 世纪 70 年代出现的关系数据库为解决这一问题提供了强有力的工具,从