电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

关联规则--CARMAVIP免费

关联规则--CARMA_第1页
1/44
关联规则--CARMA_第2页
2/44
关联规则--CARMA_第3页
3/44
统计分析、数据挖掘与商业智能应用研究小组关联规则--CARMAContinuousAssociationRuleMiningAlgorithm报告人:徐启元指导教师:谢邦昌日期:2007年11月30日统计分析、数据挖掘与商业智能应用研究小组目录关联规则基本概念CARMA算法简介CARMA模块的基本概念案例分析及Clementine操作步骤购物篮分析----Tabular类型数据网络日志分析----Transactional类型数据值得注意的问题CARMA算法原理(参考)统计分析、数据挖掘与商业智能应用研究小组关联规则算法简介•关联分析的目的是寻找数据项间的相关性.常用技术:–关联规则:即寻找在同一个事件中出现的不同项目的相关性•例如:找出顾客经常同时购买哪些商品。网民浏览的网页之间有没有什么关联性。统计分析、数据挖掘与商业智能应用研究小组CARMA算法简介CARMA是一种比较新的关联规则算法,它是1999年由Berkeley大学的ChristianHidber教授提出来的。1234能够处理在线连续交易流数据仅需一次,最多两次对数据的扫描就可以构造出结果集允许在算法执行过程中按需要重新设置支持度占用内存少CARMAOn-line统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•Antecedent&Consequent它们指的是规则的前项和后项。•Instances对于每一条规则,它的Instances值指的是所有记录中包含该规则的antecedent的记录的数量。面包牛奶前项Antecedent后项ConsequentIDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread总共4条购买数据,其中有三条都包含bread,那么该条规则的instances等于3统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•Support它的定义和instances很接近,不同的是support描述的不是数量,而是比例。•RuleSupport它在Support定义的基础上更进一步,它指的是所有记录中既包含某规则的antecedent,又包含consequent的记录所占的比例。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbreadSupport=3/4×100%=75%四条记录中只有一条既包含了前项bread,又包含了后向milk,所以RuleSupport=1/4×100%=25%统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•ConfidenceConfidence=RuleSupport/Support该指标反映的是规则预测的准确程度。•DeployabilityDeployability=Support–RuleSupport它的作用与confidence类似。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3orangenoodlemeatbeer4fishsoftdrinkfrozenmealbread根据规则“面包=》牛奶”,那么购买了面包的第一、二及四行都会被预测购买了牛奶,但事实上这三个预测只有第二个是正确的,所以confidence=1/3×100%=33.3%统计分析、数据挖掘与商业智能应用研究小组CARMA模块中的基本概念•Lift在已知某规则的consequent发生的先验概率的情况下,某规则的Lift被定义为Confidence和该先验概率的比率值。IDP1P2P3P41breadcheesebutterwater2watermilkbreadnoodle3milknoodlemeatbeer4fishsoftdrinkfrozenmealbread那么对于一条记录,那么不采用任何规则进行预测,随便猜测该顾客是否该买牛奶的正确率是50%已知有50%的人购买了牛奶:)如果采用“面包=》牛奶”的规则进行预测的话,正确率,即confidence=33.3%比随便猜测的正确率还低。那么此时的Lift值为多少呢???Lift=33.3%/50%=66.6%<1所以只有那些Lift>1的规则才是有意义的规则统计分析、数据挖掘与商业智能应用研究小组源数据格式•CARMA模块能够处理一下两种格式的数据•Tabular数据格式Transactional数据格式统计分析、数据挖掘与商业智能应用研究小组案例研究之购物篮分析•数据准备•使用数据为clementine自带的Baskets1n数据集;•该数据集样本量为1000,每笔交易包含了顾客的卡号、性别、年龄、收入、付款方式等一系列个人信息,以及其购买的各种食品清单;•该数据集为Tabular格式的数据。•研究目的•为超市货架的摆放提供科学的依据;•为超市商品促销决策提供支持。统计分析、数据挖掘与商业智能应用研究小组案例研究统计分...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

关联规则--CARMA

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部