数据仓库与数据挖掘日常生活的问题:人们在日常生活中经常会遇到这样的情况:•超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;•保险公司想知道购买保险的客户一般具有哪些特征;•医学研究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助;企业面临的问题•经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据,它是企业生产经营活动的真实记录,由于缺乏集中存储和管理,这些数据不能为本企业加以利用,不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息数据爆炸:自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中。我们会淹死在数据中,但却为信息、知识所饿!面临的问题•如何使企业或组织在激烈的市场竞争中保持对客户的吸引力?•如何预先发现和避免企业运作过程中不易察觉的商业风险?•如何在堆积如山的企业交易数据中发现具有商业价值的闪光点?不同层次的信息处理需求•事物处理需求•分析处理需求事务处理需求(OLTP)–不同的事务处理子系统•采购子系统:订单、订单细则、供应商•销售子系统:顾客、销售•库存子系统:出库领料单、进料入库单、库存台帐•人事子系统:员工、部门–各种事务处理需求•一笔订购、一笔销售、一次进料、一次出料•要求–强调多用户并发环境,数据的一致性、完整性分析处理需求(OLAP)–今年销售量下降的因素(时间、地区、商品、销售部门)–某种商品今年的销售情况与以往相比,有怎样的变化?每年的第一季度商品销售在各类商品上的分布情况怎样?•要求–多个子系统中的数据(数据集成)–历史数据–汇总、综合的数据•随着数据库技术的应用普及和发展,人们不再仅仅满足于一般的业务处理,而对系统提出了更高的要求:提供决策支持数据库数据仓库•数据库系统能够很好的用于事务处理,但它对分析处理的支持一直不能令人满意。特别是当以业务处理为主的联机事务处理(OLTP)应用和以分析处理为主的决策支持系统(DSS)应用共存于一个数据库系统时,就会产生许多问题(混乱现象)。•例如,事务处理应用一般需要的是当前数据,主要考虑较短的响应时间;而分析处理应用需要是历史的、综合的、集成的数据,它的分析处理过程可能持续几个小时,从而消耗大量的系统资源。•人们逐渐认识到直接用事务处理环境来支持DSS是行不通的。要提高分析和决策的有效性,分析型处理及其数据必须与操作型处理及其数据分离(不能都在一个数据库环境中)。必须把分析型数据从事务处理环境中提取出来,按照DSS处理的需要进行重新组织,建立单独的分析处理环境。•数据仓库技术正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。数据仓库的定义•数据仓库是一种面向主题的数据管理技术,它提供集成化的、历史的数据管理功能,支持综合性的数据分析,特别是战略分析。•数据仓库构成了DSS和DBMS的技术基础,它必将推动DSS研究的全面发展和方法的实用性化。通俗的解释•人们专门为业务的统计分析建立一个数据中心,它的数据可以从联机的事务处理系统、异构的外部数据源、脱机的历史业务数据中得到;它是一个联机的系统,专门为分析统计和决策支持应用服务,通过它可满足决策支持和联机分析应用所要求的一切。这个数据中心就叫作数据仓库。特征及体系结构•数据仓库的特征•数据仓库的体系结构数据仓库的体系结构•一个完整的数据仓库结构一般由6个基本层次组成•1)数据源层。•2)数据后端处理层。•3)数据仓库及其管理层(包括源数据管理)。•4)数据集市层。•5)数据仓库应用层(或称前端处理层)。•6)数据展示层。数据仓库层次结构示意图•数据展示层•数据仓库应用层•数据集市层•数据仓库及管理层•数据后端处理层•数据源层数据挖掘•定义:数据挖掘(DataMining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。经典案例——尿布与啤酒•在一家超市中,人们发现了一个特别有趣的现象:尿布与啤酒这两种风马牛不...