华南理工大学《数据挖掘》复习资料VIP免费

下载本文档

阅读 95
下载 21
格式 doc
大小 2 MB
约16页
2024-10-28 发布于山西
收藏
评论
点赞(0)
海报
举报

1/16页

2/16页

3/16页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

/16

文本预览下载提示常见问题

华南理工大学《数据挖掘》复习资料【英文缩写】BI(商务智能):BusinessIntelligenceOLAP(联机分析处理):OnlineAnalyticalProcessingOLTP(联机事务处理):OnlineTransactionProcessingETL(提取/变换/装入):Extraction/Transformation/LoadingKDD(数据中的知识发现):KnowledgeDiscoveryinDatabasesLecture1.【知识发现的主要过程】(1)数据清理（消除噪声和不一致的数据）(2)数据集成（多种数据源可以组合在一起）(3)数据选择（从数据库中提取与分析任务相关的数据）(4)数据变换（数据变换或同意成适合挖掘的形式，如通过汇总或聚集操作）(5)数据挖掘（基本步骤，使用只能方法提取数据模式）(6)模式评估（根据某种兴趣度度量，识别表示只是的真正有趣的模式）(7)知识表示（使用可视化和只是表示技术，向用户提供挖掘的知识）【挖掘的知识类型】(1)概念描述：特征划与区分(概化、摘要、以及对比数据特征)(2)关联（相关性或者因果关系）(3)分类与预测：对类或概念构造模型或函数以便对未来数据进行预测(4)聚类分析：类标识符是未知的，把数据分成不同的新类，使得同一个类中的元素具有极大的相似性，不同类元素的相似性极小。(5)趋势与偏差分析：序列模式挖掘(6)孤立点分析：孤立点，不符合该类数据的通用行为的数据，不是噪声或异常。【数据挖掘在互联网、移动互联网的应用】(1)Web用法挖掘（Web日志挖掘）：在分布式信息环境下捕获用户访问模式(2)权威Web页面分析：根据Web页面的重要性、影响和主题，帮助对Web页面定秩(3)自动Web页面聚类和分类：给予页面的内容，以多维的方式对Web页面分组和安排(4)Web社区分析：识别隐藏的Web社会网络和社团，并观察它们的演变Lecture2.【为什么需要数据预处理】现实世界中的数据很“脏”，具有以下特性：(1)不完整的:缺少属性值,感兴趣的属性缺少属性值,或仅包含聚集数据(2)含噪声的:包含错误或存在孤立点(3)不一致的:在名称或代码之间存在着差异数据预处理技术可以改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。【数据预处理的主要内容】(1)数据清洗（Datacleaning）填充遗失的数据,平滑噪声数据,辨识或删除孤立点,解决不一致性问题(2)数据集成（Dataintegration）对多个数据库，数据立方或文件进行集成(3)数据变换（Datatransformation）规范化与聚集（Normalizationandaggregation）(4)数据约简（Datareduction）得到数据集的压缩表示，它小的多，但能产生同样分析结果(5)数据离散化（Datadiscretization）特别对数字值而言非常重要【分箱平滑】是一种处理噪声数据的方法。先对数据进行排序，然后把它们划分到箱，然后通过箱平均值，箱中值等进行平滑。(1)等宽(距离)划分根据属性值的范围划分成N等宽的区间。很直接，但孤立点将会对此方法有很大的影响(2)等深(频率)划分划分成N个区间，每个区间含有大约相等地样本数。具有较好的数据扩展性【无监督离散化】分箱、直方图分析、聚类分析【有监督离散化】离散化过程使用类信息，基于熵的离散化：(1)给定样本集S，根据分解值T分为两部分，计算熵：(2)选择某一边界T使熵最大.(3)递归地用于所得到的划分，直到满足某个终止条件。【数据预处理（缺失数据）方法】数据清理缺失值的处理方法：(1)忽略元组：当缺失类标号时通常忽略元组。除非元组有多个属性缺失值，否则该方法不是很有效。当每个属性缺失值的百分比变化很大时，它的性能特别差。(2)人工填写缺失值：该方法很费时，当数据集很大，缺少很多值时，该方法不可行。(3)使用一个全局常量填充缺失值：将缺失的属性值用同一个常数（如unknow）替换。如果缺失值都用unknow替换，则挖掘程序则可能误以为它们行程了一个有趣的概念，因为它们都具有相同的值。因此，尽管该方法简单，但是并不十分可靠。(4)使用属性的均值填充缺失值(5)使用与给定元组属同一类的所有样本的属性均值(6)使用最可能的值填充缺失值：可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。（3）~（6）使数据偏置。填入的值可能不正确。方法6是最流行的策略，与其他方法相比，它使用已有的数据大部分信息来预测缺失值。缺失值不代表数据有错误（例如，...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

华南理工大学《数据挖掘》复习资料

【知识发现的主要过程】(1)数据清理（消除噪声和不一致的数据）(2)数据集成（多种数据源可以组合在一起）(3)数据选择（从数据库中提取与分析任务相关的数据）(4)数据变换（数据变换或同意成适合挖掘的形式，如通过汇总或聚集操作）(5)数据挖掘（基本步骤，使用只能方法提取数据模式）(6)模式评估（根据某种兴趣度度量，识别表示只是的真正有趣的模式）(7)知识表示（使用可视化和只是表示技术，向用户提供挖掘的知识）【挖掘的知识类型】(1)概念描述：特征划与区分(概化、摘要、以及对比数据特征)(2)关联（相关性或者因果关系）(3)分类与预测：对类或概念构造模型或函数以便对未来数据进行预测(4)聚类分析：类标识符是未知的，把数据分成不同的新类，使得同一个类中的元素具有极大的相似性，不同类元素的相似性极小

(5)趋势与偏差分析：序列模式挖掘(6)孤立点分析：孤立点，不符合该类数据的通用行为的数据，不是噪声或异常

【数据挖掘在互联网、移动互联网的应用】(1)Web用法挖掘（Web日志挖掘）：在分布式信息环境下捕获用户访问模式(2)权威Web页面分析：根据Web页面的重要性、影响和主题，帮助对Web页面定秩(3)自动Web页面聚类和分类：给予页面的内容，以多维的方式对Web页面分组和安排(4)Web社区分析：识别隐藏的Web社会网络和社团，并观

文章天下 + 关注: 实名认证
内容提供者

各种文档应有尽有

收藏店铺进入空间

华南理工大学《数据挖掘》复习资料VIP免费

华南理工大学《数据挖掘》复习资料

您可能关注的文档

相关文档

热门下载

相关标签