数据仓库与数据挖掘学习要点第一章引言1、数据挖掘的概念,即什么是数据挖掘?数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。2、数据挖掘的过程。3、数据挖掘的功能是什么?即可以挖掘到什么类型的模式。1)概念描述:特征和区分2)频繁模式,关联3)分类和预测4)聚类分析5)离群点分析6)趋势和演变分析4、数据挖掘模式是要挖掘有趣的模式。什么是有趣模式,为什么要挖掘有趣的模式?有趣模式:易于被人理解的,在某种程度上在新的或测试数据上是有效的,潜在有用的,新颖的,或验证了用户希望证实的某种假设模式兴趣度度量,无论是客观的还是主观的,都可以用来指导发现过程5、关系数据库、数据仓库、数据挖掘构成一个怎样的层次,在功能上它们之间有什么样的关系?多种挖掘功能的集成、耦合第二章数据预处理1、为什么要预处理数据?现实世界中的数据是脏的:1)不完全:缺少属性值,缺少某些有趣的属性,或仅包含聚集数据2)噪音:包含错误或孤立点3)不一致:编码或名字存在差异2、数据预处理包括那些方面?数据清理——填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不一致数据集成——多个数据库,数据立方体,或文件的集成数据变换——规范化和聚集数据归约——得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩数据离散化和概念分层3、数据清理的概念,数据清理包括那些方面?数据清理——填充缺失值,识别/去除离群点,光滑噪音,并纠正数据中的不一致数据清理包括缺失值、噪声数据、不一致性、偏差检测和数据交换4、数据集成和变换的概念。数据集成——多个数据库,数据立方体,或文件的集成数据变换——规范化和聚集5、数据规约的概念,数据规约包括那些方面?数据归约——得到数据的归约表示,它小得多,但产生相同或类似的分析结果:维度规约、数值规约、数据压缩数据规约包括数据立方体聚集、维度规约、数据压缩、数值规约、离散化和产生概念分层6、什么是数据离散化?什么是概念分层?数据离散化——把连续属性的区域分成区间概念分层——递归离散化属性,产生属性值分层/多分辨率划分第三章数据仓库与OLAP技术1、数据仓库的概念数据仓库是面向主题的,集成的,时变的,和非易失的数据集合,支持管理决策过程2、为什么需要数据仓库?数据仓库,是在数据库已经大量存在的情况下,为了进一步挖掘数据资源、为了决策需要而产生的,目的是OLAP:复杂的OLAP查询,多维视图,统一.3、什么是数据立方体?数据立方体将数据建模,并允许由多个维进行观察4、掌握数据立方体各种操作:上卷、下钻、切块、切片。5、了解数据仓库的功能及在数据处理中的层次位置。第五章挖掘频繁模式、关联和相关1、项集、频繁项集的概念。设A是一个由项目构成的集合,称为项集。如果项集的支持度超过用户给定的最小支持度阈值,就称该项集是频繁项集(或大项集)。2、支持度、置信度的概念及计算。项集A在事务数据库D中出现的次数占D中总事务的百分比叫做项集的支持度。support(X→Y)=P(XuY)置信度,是指特定个体对待特定命题真实性相信的程度.也就是概率是对个人信念合理性的量度是一个条件概率P(Y|X)。confidence(X→Y)=P(Y|X)3、Apriori算法的过程及应用。1)通过迭代,检索出事务数据库中的所有频繁项集,即支持度不低于用户设定的阈值的项集;2)利用频繁项集构造出满足用户最小信任度的规则。第六章分类和预测1、什么是分类,什么是预测,二者有什么区别与联系?分类和预测是两种数据分析形式分类——用于提取描述重要数据类的模型预测——用于预测未来的数据趋势的模型相同点1)两者都需要构建模型2)都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归不同点:分类法主要是用来预测类标号(分类属性值)预测法主要是用来估计连续值(量化属性值)决策树分类算法。2、决策树分类算法。基本算法(贪心算法)1)树构建:自顶向下递归地分治方式2)开始,所有的训练样本位于根节点3)属性是分类属性(若是连续值,事先离散化)4)基于选择的属性,样本被递归地分割5)基于启发式/统计测来选择测试属性(...