电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据挖掘05数据立方体VIP免费

数据挖掘05数据立方体_第1页
1/47
数据挖掘05数据立方体_第2页
2/47
数据挖掘05数据立方体_第3页
3/47
数据立方体计算与数据泛化数据泛化数据泛化数据库中的数据和对象通常包含原始概念层的细节信息,数据泛化就是将数据库中的跟任务相关的大型数据集从相对较低的概念层抽象到较高的概念层的过程。主要方法:数据立方体(OLAP使用的方法)面向属性的归纳方法12345概念层(Month,city,customer_group)(Month,*,*)两种不同类别的数据挖掘从数据分析的角度看,数据挖掘可以分为描述性挖掘和预测性挖掘描述性挖掘:以简洁概要的方式描述数据,并提供数据的有趣的一般性质。E.g.数据泛化就是一种描述性数据挖掘预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。E.g分类、回归分析等数据立方体的物化数据立方体有利于多维数据的联机分析处理数据立方体使得从不同的角度对数据进行观察成为可能方体计算(物化)的挑战:海量数据,有限的内存和时间海量数据运算对大量计算时间和存储空间的要求数据立方体---基本概念(1)数据立方体可以被看成是一个方体的格,每个方体用一个group-by表示最底层的方体ABC是基本方体,包含所有3个维最顶端的方体(顶点)只包含一个单元的值,泛化程度最高上卷和下钻操作与数据立方体的对应BA()CABACBCABC数据立方体---基本概念(2)基本方体的单元是基本单元,非基本方体的单元是聚集单元聚集单元在一个或多个维聚集,每个聚集维用"*"表示E.g.(city,*,year,measure)m维方体:(a1,a2,...,an)中有m个不是"*"祖先和子孙单元i-D单元a=(a1,a2,...,an,measuresa)是j-D单元b=(b1,b2,...,bn,measureb)的祖先,当且仅当(1)i=min_sup闭立方体(1)冰山方体的计算通过冰山条件(例:HAVINGCOUNT(*)>=min_sup)来减轻计算数据立方体中不重要的聚集单元的负担,然而仍有大量不感兴趣的单元需要计算比如:最小支持度为10,假定100维的数据立方体有两个基本方体:{(a1,a2,a3,…,a100):10,(a1,a2,b3,…,b100):10},假设冰山条件为最小支持度10则需计算和存储的单元仍是海量:2101-6个如:(a1,a2,a3,…,a99,*):10,(a1,*,a3,…,a100):10闭立方体(2)闭单元一个单元c是闭单元,如果单元c不存在一个跟c有着相同度量值的后代d例如:上述例子中,任何一个(a1,a2,a3,*,*,…,*):10,都和他的后代有相同度量值闭立方体:一个仅有闭单元组成的数据立方体例如:(a1,a2,*,*,…,*):20(a1,a2,a3,…,a100):10(a1,a2,b3,…,b100):10立方体外壳部分物化的另外一种策略:仅预计算涉及少数维的方体(比如3到5维),这些立方体形成对应数据立方体的外壳利用外壳对其他的维组合查询进行快速计算仍将导致大量方体(n很大时),类似的我们可以利用方体的兴趣度,选择只预计算立方体外壳的部分立方体计算的一般策略(1)一般,有两种基本结构用于存储方体关系OLAP(ROLAP)底层使用关系模型存储数据多维OLAP(MOLAP)底层使用多维数组存储数据无论使用哪种存储方法,都可以使用以下立方体计算的一般优化技术优化技术1:排序、散列和分组将排序、散列(hashing)和分组操作应用于维的属性,以便对相关元组重新排序和聚类立方体计算的一般策略(2)优化技术2:同时聚集和缓存中间结果由先前计算的较低层聚集来计算较高层聚集,而非从基本方体开始计算,减少I/O优化方法3:当存在多个子女时,由最小的子女聚集例如,计算Cbranch,可以利用C(branch,year)或者C(branch,item),显然利用前...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据挖掘05数据立方体

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部