电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据挖掘决策树PPT(自己制作)VIP免费

数据挖掘决策树PPT(自己制作)_第1页
数据挖掘决策树PPT(自己制作)_第2页
数据挖掘决策树PPT(自己制作)_第3页
决策树演讲:李伟能单位:云南大学(数学与统计学院)导师:孟捷什么是决策树?1.决策树的背景是什么?2.3.决策树是怎么样发展而来的?4.决策树可以做什么?5.现在国内外关于决策树的研究现状是什么?什么是决策树?1.决策树(DecisionTree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型。通过把实例从根节点排列到某个叶子节点来分类实例;叶子节点即为实例所属的分类;树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值。叶结点根结点内部结点体温胎生非哺乳动物哺乳动物非哺乳动物恒温否冷血是决策树构造流程经过预处理后的数据集,构建空树。选取未作判断的属性作为测试节点。基于不同的划分标准决策树的背景是什么?2.沃尔玛每小时从顾客交易获得数据为100万G,印出来可装2000万个文件柜。Twitter平均每天产生3.4亿条消息,而Facebook每天则有40亿的信息扩散。世界上访问量最大的网站google,每天能处理的数据量高达20PB。每分钟的时间里,YouTube用户会上传48小时的新视频,全球电子邮件用户共计发出2.04亿封电子邮件在影视领域,大数据运用的成功案例当数美剧《纸牌屋》。该剧的制作方既不是电视台,也不是传统的电影公司,而是一家视频播放网站。2012年,视频网站Netflix开始准备推出自制剧。在决定拍什么、怎么拍时,Netflix抛开了传统的制作方式,启用大数据。通过在该网站上3000多万订阅用户每天的点击操作,如收藏、推荐、回放、暂停、搜索请求等,Netflix进行精准分析,将这些数据用于倒推前台的影片生产。通过对大数据的分析、挖掘,Netflix发现,其用户中有很多人仍在点播1990年BBC经典老片《纸牌屋》。这些观众中,又有许多人喜欢导演大卫・芬奇,大多爱看演员凯文・史派西出演的电影。Netflix大胆预测,一部影片如果同时满足这几个要素,就可能大卖。于是,《纸牌屋》出现了,并大获成功。整部剧集一次性在Netflix网站发布,供订阅者观看,完全颠覆了传统的每周一集的播出模式。大数据的到来使得数据挖掘技术得到广泛发展生活中很多地方都需要分类,各种分类技术的诞生为我们节省了大量的时间,决策树作为分类技术的一种,在零售、电子商务、金融、医疗卫生等方面有着广泛的运用。决策树有哪些优点?1、决策树构造的分类器容易理解;2、决策树算法的运算速度要快于其他分类方法;3、决策树分类方法得到的结果的准确率要优于其他算法。决策树方法是一种比较通用的分类函数逼近法,它是一种常用于预测模型的算法,通过将大量数据有目的分类,找到一些有潜在价值的信息。决策树的起源是CLS(ConceptLearningSystem),CLS是由Hunt、Marin和Stone为了研究人类概念模型而得来的,于1966年提出,该模型为很多决策树算法的发展奠定了很好的基础。1986年,Quinlan提出了ID3算法。1984年,L.Breiman等人提出了CART(ClassificationandRegressionTree)算法。3.决策树是怎么样发展而来的?1993年,J.R.Quinlan又提出了C4.5算法,克服了ID3算法的一些不足。1996年,M.Mehta和R.Agrawal等人提出了一种高速可伸缩的有监督的寻找学习分类方法SLIQ(SupervisedLearningInQuest)。同年,J.Shafer和R.Agrawal等人提出可伸缩并行归纳决策树分类方法SPRINT(ScalablePaRallelizableInductionofDecisionTrees)1998年,R.Rastogi等人提出一种将建树和修剪相结合的分类算法PUBLIC(ADecisionTreethatIntegratesBuildingandPruning)ID3算法实例102)|(log)|()(citiptiptEntropy102)]|([1)(citiptGini)]|([max1)(_Ctipterrorionlassificati熵:基尼指数:分类误差:其中c是类的个数,并且在计算熵时,00log2O分裂属性标准ID3算法缺点ID3算法选用最大信息增益的属性作为决策树分裂属性。在算法实际应用中,这种方法偏向于选择多值属性,但属性取值数目的多少与属性的匹配并无真正关联。这样在使用ID3算法构建时,若出现各属性值取值数分布偏差大的情况,分类精度会大打折扣。ID3算法本身并未给出处理连续数据的方法。ID3算法不能处理...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部