关联分析(笔记)事物之间的关联关系包括:简单关联关系、序列关联关系
简单关联规则:属于无指导学习方法,不直接用于分类预测,只揭示事物内部的结构
Spssmodeler提供了APriori、GRI、Carma等经典算法
APriori和Carma属于同类算法
序列关联:关联具有前后顺序,通常与时间有关
SPSSModeler提供了sequence算法;数据格式如下:按照事务表存储,同事需要时间变量
关联关系简单关联关系序列关联关系Apriori只能处理分类变量数据可以是按事务表存储,亦可事实表存储
算法为提高关联规则的产生效率而设计GRI不但可以处理分类变量,前项也可是数值变量数据只能按照事实表存储采用深度优先搜索策略实现算法简单关联规则要分析的对象是事务事务的储存方式有事务表和事实表两种方式
事务表顾客ID项集1A1D2B2D3A3C事实表顾客ID项目A项目B项目C项目D110012010131010两种表均表明,顾客1购买了AD两种物品,顾客2购买了BD两种物品,顾客三购买了AC两种物品
关联规则有效性的测度指标1、支持度support:所有购买记录中,A、B同时被购买的比例
2、置信度confidence:在购买A的事务中,购买B的比例
关联规则实用性的测度指标1、提升度lift:(在购买A的事务中,购买B的比例)/(所有事务中,购买B的比例)2、置信差3、置信率、正态卡方、信息差等等简单关联关系实例例1数据格式:事实表算法:Apriori所有购买项目均选入前项antecedent和后项consequent
输出结果的最低支持度是10%;本例设定的划分频繁项集的标准大于最小支持度10%
最小置信度是80%;前项最多项目数:5本例中,三项以上没有超过10%的支持度,所以不能形成三项以上的频繁项集,最大的频繁项集大小是2
结论解释:实例:包含前项beer、cannedveg