大数据挖掘严宇宇2013-4-18大数据处理技术的重要性Gartner(高德纳)公司研究认为,新产生的数据量每年正以50%的速度递增,而这个速度使得每年新增的数据量不到两年就会翻一番
大数据的基本特点大量化(Volume)多样化(Variety)快速化(Velocity)价值(Value)大数据的基本特点•数据的可验证性(Verification)•可变性(Variability)•真实性(Veracity)•邻近性(Vicinity)从数据分析到数据挖掘•数据本身不同(数据量的不同,数据类型的不同)•数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识
•数据分析有明确目标的特点,数据挖掘是一个知识发现的过程
•数据分析数据一般以文件形式或者单个数据库的方式组织,而数据挖掘必须建立在数据仓库或是分布式存储的基础之上
•大数据挖掘是传统手工业式的数据分析的现代大工业形式
Web挖掘•基于互联网的挖掘(Web挖掘)是利用数据挖掘技术从互联网上的文档中及互联网服务上自动发现并提取人们感兴趣的信息
•可分为三类:内容挖掘结构挖掘用户访问模式挖掘数据挖掘的基本流程•信息收集•数据集成•数据规约•数据清理•数据变换•数据挖掘过程•模式评估•知识表示数据规约,数据清理,数据变换又合称数据预处理
在数据挖掘中,至少60%的费用可能花费在信息收集阶段,而其中至少60%以上的精力和时间花在数据预处理的过程中
CRIAP-DM数据挖掘过程示意图•业务理解•数据理解•数据准备•建模•评估•部署数据挖掘的评估•准确性•性能•功能性•可用性•辅助功能数据挖掘的应用发展•营销领域的零售业•直效行销界•制造业•业务金融保险•通信业•医疗服务业•各种政府机关数据挖掘的应用发展•尿不湿和啤酒•某百货零售企业将强大的数据挖掘软件用在销售数据库上,得出了一个有意思的结论,那些前来为周末采购啤酒的男性客户