龙源期刊网http://www.qikan.com.cn数据挖掘在超市大数据中的应用作者:梁婧婕曹婷来源:《商场现代化》2016年第07期摘要:大数据时代,各行各业汇集了庞大的数据,如何使这些数据得到充分的利用,数据挖掘是最关键也是最基础的工作。在本次研究中,将数据挖掘技术与购物篮思想理念相结合,运用R语言,对南京一家超市五个月内的销售数据进行研究分析。具体有65536条数据,有31869条销售记录,2242种类商品,将这些商品分为192小类商品,基于食品分类规则将该超市食品分为38类。此次研究过程如下:首先,运用R语言,使用编写字典的方式,对所获取的数据进行清洗,生成结构化数据。然后,在三方面对数据挖掘。一,数据描述性统计挖掘。二关联规则挖掘。最后,用图表的形式展示此次研究的成果。此次烟酒店意义:利用初级数据挖掘的理论支持,帮助企业更好地分析、了解客户,最终赢得客户的竞争是该研究的重要的意义和实际应用价值。关键词:大数据;数据挖掘;购物篮;超市销售;关联规则一、研究背景1998年的《哈佛商业评论》刊登过这样一个案例,20世纪90年代美国沃尔玛超市中,沃尔玛超市管理人员分析销售数据时发现了一个令人难以理解的想象:在某些特定的情况下,啤酒与尿布这两件毫无关联的商品会经常出现在同一购物篮中。1993年美国学者Agrawal提出关于通过分析购物篮中商品集合,从而找出关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为.Agrawal从数学计算机算法角度提出了商品关联关系的计算方法--Apriori算法。沃尔玛尝试将Apriori算法引入到数据分析中,并获得成功,为超市销售“”产生了开拓性的影响。于是产生了啤酒与尿布的故事。近几年,数据挖掘技术在零售业,电信业,金融业等许多领域得到了广泛的应用。为了更加清楚地了解学习数据挖掘在大数据环境下的应用。此次,我们对数据挖掘中的部分分析功能在零售业(基于一小型超市)的应用做一些粗略的研究与学习,基于关联规则,购物篮,Apriori算法等分析商品销售状况,探索出更多的类似于啤酒与尿布这样的规则等,辅助决策者了解销售全局,降低库存成本,进行市场分析等。二、文献回顾数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,GartnerGroup“的一次高级技术调查将数据挖掘和人工智能列为未来三到五年内将对工业产生深远”影响的五大关键技术之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(TechnologyReview)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。数据挖掘技术已被广泛的应用于各个领域。在零售业领域,很多大型的零售商都采用了数据挖掘工具进行决策分析,关联规则挖掘已经投入应用领域,交叉管理,库存控制好客户分析设计都是零售业数据挖掘的主要内容。以沃尔玛为例他就采用了BO的方案。LuisCavique的购物篮分析的可扩展算法研究;AndreasMilda,ThomasReutterer提出了龙源期刊网http://www.qikan.com.cn一个改进合作过滤方法以及预测二进制购物篮数据的交叉目录购买情况;HorngJinhChangd的基于聚类分析和关联规则分析的潜在客户购买行为的期望模型研究;FransCoenen,PaulLeng的基于分类精确度的关联规则阈值影响等。国内对数据挖掘的研究较晚,没有形成整体的力量。1993年国家自然基金首次提出支持数据挖掘领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及应用研究。复旦大学一直从事这方面的研究,朱扬勇等把一个应用于特征规则基于差异化的兴趣度定义运用到关联给则中,重新设立了兴趣度;武汉科技大学的张新霞等提出基于统计相关性的兴趣度量;东南大学宋爱波等提出了一种解决规则组合爆炸问题的方法,建立了一个带约束规则挖掘算法的模型,对Apriorii算法进行优化。还有其他相关研究。但是,当前国内零售业数据挖掘工作还处于探索阶段。据了解,许多零售业企业使用收账结账设备获取的相关销售数据,都没有得到充分利用,这些数据本来都可以帮助零售企业实施交...