下载后可任意编辑数据挖掘调研报告 第 4 章无监督学习 4.1 基本概念 图 4.1 数据点的三个自然 4.2k-均值聚类 4.2.1k-均值算法 图 4.2k-均值算法 计算机组成原理(第三版) 图 4.3k-均值算法的运行实例 4.2.2k-均值算法的硬盘版本 图 4.4 一个简单的 k-均值算法硬盘版本 计算机组成原理(第三版) 34.2.3 优势和劣势 图 4.5 存在和不存在异常值情况下的聚类 图 4.6 不理想的初始种子(聚类中心) 图 4.7 理想的初始种子(聚类中心)4 计算机组成原理(第三版) 图 4.8 自然(不规则)聚类和 k-均值聚类 4.3 聚类的表示 4.3.1 聚类的一般表示方法 图 4.9 聚类的规则描述 4.3.2 任意形状的聚类 图 4.10 两个自然聚类以及 计算机组成原理(第三版) 54.4 层次聚类 图 4.11 层次聚类的一个例子 图 4.12 合并层次聚类算法 1下载后可任意编辑 图 4.13 合并层次聚类算法的工作 4.4.1 单链接方法 图 4.14 单链接方法的连锁反应 计算机组成原理(第三版)4.4.2 全链接方法 图 4.15 采纳全链接方法聚类 4.4.3 平均链接方法 4.4.4 优势和劣势 4.5 距离函数 4.5.1 数 值 的 属 性 (NumericAttributes)4.5.2 布 尔 属 性 和 符 号 属 性(BinaryandNominalAttributes) 图 4.16 两个只具有布尔属性数据点的混合矩阵 计算机组成原理(第三版) 74.5.3 文本文档 4.6 数据标准化 4.7 混合属性的处理 4.8 采纳哪种聚类算法 4.9 聚类的评估 图 4.17 带有熵和纯度值的混合矩阵 计算机组成原理(第三版)4.10 发现数据区域和数据空洞 图 4.18 用决策树来区分数据区域和空洞区域 通过半年的实习,我在这里得到了一次较全面的、系统的锻炼,也学到了许多书本上所学不到的知识和技能。以下是我这次的实习鉴定。 经历了实习,对社会也有了基本的实践,让我学到了书本以外的知识,实习期间,我努力尽量做到理论与实践相结合,在实习期间能够遵守工作纪律,不迟到、早退,仔细完成领导交办的工作。在实习鉴定中,我参加了整个数据分析工作,从数据猎取到数据清洗、数据报表的制定到模型的建立以及模型监控等等,让我充分学习了数据分析岗位的实际操作。 在实习初期,项目经理安排了我参加数据猎取的相关工作,主要是编写SQL 代码在 linux 上用 Perl 语言调用猎取数据。起初觉得自己对 SQL 语言了解较多,以为这份工作非常简单。但实际操作起来才知道,在数据量达到...