大数据挖掘严宇宇2013-4-18大数据处理技术的重要性Gartner(高德纳)公司研究认为,新产生的数据量每年正以50%的速度递增,而这个速度使得每年新增的数据量不到两年就会翻一番。大数据的基本特点大量化(Volume)多样化(Variety)快速化(Velocity)价值(Value)大数据的基本特点•数据的可验证性(Verification)•可变性(Variability)•真实性(Veracity)•邻近性(Vicinity)从数据分析到数据挖掘•数据本身不同(数据量的不同,数据类型的不同)•数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。•数据分析有明确目标的特点,数据挖掘是一个知识发现的过程。•数据分析数据一般以文件形式或者单个数据库的方式组织,而数据挖掘必须建立在数据仓库或是分布式存储的基础之上。•大数据挖掘是传统手工业式的数据分析的现代大工业形式。Web挖掘•基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从互联网上的文档中及互联网服务上自动发现并提取人们感兴趣的信息。•可分为三类:内容挖掘结构挖掘用户访问模式挖掘数据挖掘的基本流程•信息收集•数据集成•数据规约•数据清理•数据变换•数据挖掘过程•模式评估•知识表示数据规约,数据清理,数据变换又合称数据预处理。在数据挖掘中,至少60%的费用可能花费在信息收集阶段,而其中至少60%以上的精力和时间花在数据预处理的过程中。CRIAP-DM数据挖掘过程示意图•业务理解•数据理解•数据准备•建模•评估•部署数据挖掘的评估•准确性•性能•功能性•可用性•辅助功能数据挖掘的应用发展•营销领域的零售业•直效行销界•制造业•业务金融保险•通信业•医疗服务业•各种政府机关数据挖掘的应用发展•尿不湿和啤酒•某百货零售企业将强大的数据挖掘软件用在销售数据库上,得出了一个有意思的结论,那些前来为周末采购啤酒的男性客户往往会想起妻子让他们买纸尿裤,或者那些周末前来购买纸尿裤的男性客户会同时为自己购买啤酒,所以他们会将两种商品都放入购物车里。于是该零售企业很快将销售纸尿裤和啤酒的柜台放到不远的地方,进而销售量大增。数据挖掘的应用发展•Target和怀孕预测指数•美国一名男子闯入他家附近的一家美国零售连锁超市Target店铺(美国第三大零售商塔吉特)进行抗议:"你们竟然给我17岁的女儿发婴儿尿片和童车的优惠券。"店铺经理立刻向来者承认错误,但是其实该经理并不知道这一行为是总公司运行数据挖掘的结果。如图2-1所示。一个月后,这位父亲来道歉,因为这时他才知道他的女儿的确怀孕了。Target比这位父亲知道他女儿怀孕的时间足足早了一个月。数据挖掘研究发展•对于大规模数据的存储、管理和使用,包括在分布式环境上建立数据仓库的方式方法。•知识发现语言的形式化描述和算法,既研究专门用于知识发现的数据挖掘语言。•数据挖掘过程中的可视化方法,使知识发现的过程能够更容易被用户理解,业便于在知识发现的过程中进行人机交互。•生物信息和基因的数据挖掘。•Web数据挖掘的各个方面。数据挖掘十大经典算法•C4.5一种分类决策树算法•TheK-meansalgorithm即k-means算法•SVM(SupportVectorMachine)支持向量机•TheAprioriAlgorithm•最大期望(EM)算法•PageRank•AdaBoost•KNN,K最近邻分类算法•NaiveBayes朴素贝叶斯•CART,分类与回归树分类算法应用•直邮营销•客户流失模型•垃圾邮件处理•信用卡分级分类算法•基于决策树的分类算法•决策树其叶节点是类别名称,中间节点是带有分枝的属性,每个分枝对应该属性的某一可能值。if(obj.相貌==‘帅’)then{if(obj.财富>=1000000000)then{print(obj.Name+"高富帅");}else{print(obj.Name+“是帅哥");}else{if(obj.财富>=1000000000)then{print(obj.Name+”是高富");}else{print(obj.Name+"是屌丝");}}分类算法:决策树构建过程•(1)我们先根据训练子集形成一个初始的决策树。•(2)如果该树不能对所有对象给出正确的分类,那么选择一些例外加入到训练子集中。•(3)重复该过程一直到形成正确的决策集。分类算法:神经网络•神经网络是通过对人脑的基本单元————神经元的建模和链接,探索模拟人脑神经系统功能的模型,并研制一...