1 课程设计报告 名 称: 数据仓库与数据挖掘 题 目: 数据挖掘中关联规则的发展趋势 院 系: 经济管理系 班 级: 信管 1 2 0 1 学 号: 2 0 1 2 0 6 0 4 0 1 0 9 学生姓名: 韩智强 指导教师: 温磊 成 绩: 日期:2 0 1 5 年 5 月 2 目录 一、引 言 3 二、基于复杂数据组织形式的关联规则算法 3 (一)并行数据库 3 (二)数据仓库 3 (三)时间连续数据库 4 (四)增量式更新数据库 4 三、新研究方法的引入 5 (一)模糊集 5 (二)概念格 5 (三)其他研究方法 5 四、前沿研究 5 (一)时间-空间数据库 5 (二)Web 挖掘 6 (三)多媒体数据库 6 (四)可视化挖掘 6 五、总结与展望 7 3 数据挖掘中关联规则的发展趋势 一、引 言 目前,越来越多的行业都存在巨量数据处理的问题,结构简明的关联规则凭借简单易懂的规则表达形式较其他数据挖掘方法更容易被接受,其广泛的应用前景也被学术界所认同。理论体系的逐渐完善和实际应用的巨大成功使关联规则一度成为数据挖掘的重要研究方向。但随着现代数据库技术的发展和应用领域的拓宽,数据存储形式甚至数据格式都发生了巨大变化,关联规则研究也面临着前所未有的挑战。 为了明确关联规则研究的现实意义和未来发展趋势,笔者考察了近几年国内外相关的研究成果和最新动态。在对复杂数据组织形式的关联规则挖掘详细描述的基础上,探讨了其他学科领域对关联规则的理解及相应的研究方法,最后提出了关联规则的前沿研究问题和未来的发展趋势。 二、基于复杂数据组织形式的关联规则算法 随着并行和分布式数据库系统、数据仓库、联机分析处理(OLAP)和数据立方体等数据组织、存储、分析和处理技术的出现和成熟,使关联规则挖掘在并行数据库、数据仓库、时间连续数据库和增量更新数据库等复杂数据组织形式中的应用成为可能,相应地产生了一系列新的关联规则算法。 (一)并行数据库 对于并行数据库而言,一般具有多个可以同时独立运行的处理器(结点),并通过网络交换信息。由于并行体系结构计算能力强,数据处理量大,因而基于并行体系结构的关联规则算法明显优于基于单处理器的顺序算法。并行数据库可以分为无共享体系(share-nothing)结构和内存共享体系(shared-memory)结构。关联规则并行算法的设计主要从数 据合理分配、减少 I/O 操作、负载平衡、减少结点间的通信和同步以及减少计算冗余等方面权衡考虑。 无共享体系结构中,数据库分布在各个结点(...