华南理工大学《数据挖掘》复习资料【英文缩写】BI(商务智能):BusinessIntelligenceOLAP(联机分析处理):OnlineAnalyticalProcessingOLTP(联机事务处理):OnlineTransactionProcessingETL(提取/变换/装入):Extraction/Transformation/LoadingKDD(数据中的知识发现):KnowledgeDiscoveryinDatabasesLecture1.【知识发现的主要过程】(1)数据清理(消除噪声和不一致的数据)(2)数据集成(多种数据源可以组合在一起)(3)数据选择(从数据库中提取与分析任务相关的数据)(4)数据变换(数据变换或同意成适合挖掘的形式,如通过汇总或聚集操作)(5)数据挖掘(基本步骤,使用只能方法提取数据模式)(6)模式评估(根据某种兴趣度度量,识别表示只是的真正有趣的模式)(7)知识表示(使用可视化和只是表示技术,向用户提供挖掘的知识)【挖掘的知识类型】(1)概念描述:特征划与区分(概化、摘要、以及对比数据特征)(2)关联(相关性或者因果关系)(3)分类与预测:对类或概念构造模型或函数以便对未来数据进行预测(4)聚类分析:类标识符是未知的,把数据分成不同的新类,使得同一个类中的元素具有极大的相似性,不同类元素的相似性极小。(5)趋势与偏差分析:序列模式挖掘(6)孤立点分析:孤立点,不符合该类数据的通用行为的数据,不是噪声或异常。【数据挖掘在互联网、移动互联网的应用】(1)Web用法挖掘(Web日志挖掘):在分布式信息环境下捕获用户访问模式(2)权威Web页面分析:根据Web页面的重要性、影响和主题,帮助对Web页面定秩(3)自动Web页面聚类和分类:给予页面的内容,以多维的方式对Web页面分组和安排(4)Web社区分析:识别隐藏的Web社会网络和社团,并观察它们的演变Lecture2.【为什么需要数据预处理】现实世界中的数据很“脏”,具有以下特性:(1)不完整的:缺少属性值,感兴趣的属性缺少属性值,或仅包含聚集数据(2)含噪声的:包含错误或存在孤立点(3)不一致的:在名称或代码之间存在着差异数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。【数据预处理的主要内容】(1)数据清洗(Datacleaning)填充遗失的数据,平滑噪声数据,辨识或删除孤立点,解决不一致性问题(2)数据集成(Dataintegration)对多个数据库,数据立方或文件进行集成(3)数据变换(Datatransformation)规范化与聚集(Normalizationandaggregation)(4)数据约简(Datareduction)得到数据集的压缩表示,它小的多,但能产生同样分析结果(5)数据离散化(Datadiscretization)特别对数字值而言非常重要【分箱平滑】是一种处理噪声数据的方法。先对数据进行排序,然后把它们划分到箱,然后通过箱平均值,箱中值等进行平滑。(1)等宽(距离)划分根据属性值的范围划分成N等宽的区间。很直接,但孤立点将会对此方法有很大的影响(2)等深(频率)划分划分成N个区间,每个区间含有大约相等地样本数。具有较好的数据扩展性【无监督离散化】分箱、直方图分析、聚类分析【有监督离散化】离散化过程使用类信息,基于熵的离散化:(1)给定样本集S,根据分解值T分为两部分,计算熵:(2)选择某一边界T使熵最大.(3)递归地用于所得到的划分,直到满足某个终止条件。【数据预处理(缺失数据)方法】数据清理缺失值的处理方法:(1)忽略元组:当缺失类标号时通常忽略元组。除非元组有多个属性缺失值,否则该方法不是很有效。当每个属性缺失值的百分比变化很大时,它的性能特别差。(2)人工填写缺失值:该方法很费时,当数据集很大,缺少很多值时,该方法不可行。(3)使用一个全局常量填充缺失值:将缺失的属性值用同一个常数(如unknow)替换。如果缺失值都用unknow替换,则挖掘程序则可能误以为它们行程了一个有趣的概念,因为它们都具有相同的值。因此,尽管该方法简单,但是并不十分可靠。(4)使用属性的均值填充缺失值(5)使用与给定元组属同一类的所有样本的属性均值(6)使用最可能的值填充缺失值:可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。(3)~(6)使数据偏置。填入的值可能不正确。方法6是最流行的策略,与其他方法相比,它使用已有的数据大部分信息来预测缺失值。缺失值不代表数据有错误(例如,...