数据挖掘的其他基本功能介绍一、关联规则挖掘关联规则挖掘是挖掘数据库中和指标(项)之间有趣的关联规则或相关关系。关联规则挖掘具有很多应用领域,如一些讨论者发现,超市交易记录中的关联规则挖掘对超市的经营决策是十分重要的。1、 基本概念设是项组合的记录,D 为项组合的一个集合。如超市的每一购物小票为一个项的组合(一个维数很大的记录),而超市一段时间的购物记录就形成集合 D。我们现在关怀这样一个问题,组合中项的出现之间是否存在一定的规则,如 A 游泳衣,B 太阳镜,,但是得不到足够支持。在规则挖掘中涉与到两个重要的指标:①、支持度支持度,显然,只有支持度较大的规则才是较有价值的规则。②、置信度置信度,显然只有置信度比较高的规则才是比较可靠的规则。因此,只有支持度与置信度均较大的规则才是比较有价值的规则。③、一般地,关联规则可以提供给我们许多有价值的信息,在关联规则挖掘时,往往需要事先指定最小支持度与最小置信度。关联规则挖掘实际上真正体现了数据中的知识发现。假如一个规则满足最小支持度,则称这个规则是一个频繁规则;假如一个规则同时满足最小支持度与最小置信度,则通常称这个规则是一个强规则。关联规则挖掘的通常方法是:首先挖掘出所有的频繁规则,再从得到的频繁规则中挖掘强规则。在少量数据中进行规则挖掘我们可以采纳采纳简单的编程方法,而在大量数据中挖掘关联规则需要使用专门的数据挖掘软件。关联规则挖掘可以使我们得到一些原来我们所不知道的知识。应用的例子:* 日本超市对交易数据库进行关联规则挖掘,发现规则:尿片→啤酒,重新安排啤酒柜台位置,销量上升 75%。* 英国超市的例子:大额消费者与某种乳酪。那么,证券市场上、期货市场上、或者上市公司中存在存在哪些关联规则,这些关联规则究竟说明了什么?关联规则挖掘通常比较适用与记录中的指标取离散值的情况,假如原始数据库中的指标值是取连续的数据,则在关联规则挖掘之前应该进行适当的数据离散化(实际上就是将某个区间的值对应于某个值),数据的离散化是数据挖掘前的重要环节,离散化的过程是否合理将直接影响关联规则的挖掘结果。参考文献 1二、特征化与比较1、特征化是一种描述性数据挖掘,特征化通过数据挖掘的方法提供给定数据汇合的简洁汇总,如银行优质客户的特征,从而发现潜在的优质客户;转向其他银行的优质客户的特征,从而设法留住可能会转向其他银行的优质客户,特征化在银行客户关系管...