关联规则挖掘算法研究报告摘要:数据挖掘是一个多学科交叉融合而形成的新兴的学科,它利用各种分析工具在海量数据中发现模型和数据间的关系
而在大规模事务数据库中,挖掘关联规则是数据挖掘领域的一个非常重要的研究课题
文中介绍了关联规则挖掘的研究情况,描述了经典Apriori算法的实现,并对该算法进行了分析和评价,指出了其不足和原因
并对FP树挖掘最大频繁项集的算法描述,并得到结论:数据库中潜在的最大频繁模式越多,运行时间越长
关键词:数据挖掘;关联规则;频繁项集简单地说,数据挖掘(datamining)是揭示存在于数据里的模式及数据间的关系的学科,它强调对大量观测到的数据库的处理
它是涉及数据库管理,人工智能,机器学习,模式识别,及数据可视化等学科的边缘学科
用统计的观点看,它可以看成是通过计算机对大量的复杂数据集的自动探索性分析
数据挖掘也就是通过某种方法,利用历史数据,在条件集合和结果集合之间建立一个致信度比较高的模型
而关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系,它在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究
关联规则挖掘的一个典型例子是购物篮分析
关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响
分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类
1关联规则的意义世间万物的事情发生多多少少会有一些关联
一件事情的发生,很可能是也会引起另外一件事情的发生
或者说,这两件事情很多时候很大程度上会一起发生的
那么人们通过发现这个关联的规则,可以由一件事情的发生来,来推测另外一件事情的发生,从而更好地了解和掌握事物的发展,动向等等
这就是数据挖掘中,寻找关联规则的基本意义
数据挖掘技术中的关联规则挖掘是通过计算机自动从一大对真实数据中发现这样的关联规则出来
对于计算机而