决策树演讲:李伟能单位:云南大学(数学与统计学院)导师:孟捷什么是决策树
决策树的背景是什么
决策树是怎么样发展而来的
决策树可以做什么
现在国内外关于决策树的研究现状是什么
什么是决策树
决策树(DecisionTree),又称为判定树,是数据挖掘技术中的一种重要的分类方法,它是一种以树结构(包括二叉树和多叉树)形式来表达的预测分析模型
通过把实例从根节点排列到某个叶子节点来分类实例;叶子节点即为实例所属的分类;树上每个节点说明了对实例的某个属性的测试节点的每个后继分支对应于该属性的一个可能值
叶结点根结点内部结点体温胎生非哺乳动物哺乳动物非哺乳动物恒温否冷血是决策树构造流程经过预处理后的数据集,构建空树
选取未作判断的属性作为测试节点
基于不同的划分标准决策树的背景是什么
沃尔玛每小时从顾客交易获得数据为100万G,印出来可装2000万个文件柜
Twitter平均每天产生3
4亿条消息,而Facebook每天则有40亿的信息扩散
世界上访问量最大的网站google,每天能处理的数据量高达20PB
每分钟的时间里,YouTube用户会上传48小时的新视频,全球电子邮件用户共计发出2
04亿封电子邮件在影视领域,大数据运用的成功案例当数美剧《纸牌屋》
该剧的制作方既不是电视台,也不是传统的电影公司,而是一家视频播放网站
2012年,视频网站Netflix开始准备推出自制剧
在决定拍什么、怎么拍时,Netflix抛开了传统的制作方式,启用大数据
通过在该网站上3000多万订阅用户每天的点击操作,如收藏、推荐、回放、暂停、搜索请求等,Netflix进行精准分析,将这些数据用于倒推前台的影片生产
通过对大数据的分析、挖掘,Netflix发现,其用户中有很多人仍在点播1990年BBC经典老片《纸牌屋》
这些观众中,又有许多人喜欢导演大卫・芬奇,大多