电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据挖掘概念与技术VIP免费

数据挖掘概念与技术_第1页
1/8
数据挖掘概念与技术_第2页
2/8
数据挖掘概念与技术_第3页
3/8
1 数据挖掘概念与技术 一. 什么是数据挖掘,数据挖掘的知识体系及应用范围 1. 定义: 又称数据中的知识发现,从大量的数据中挖掘有趣模式和知识的过程。 知识发现的过程: 1). 数据清理: 除噪声和删除不一致数据 2). 数据集成: 多种数据源的组合 3). 数据选择: 取和分析与任务相关的数据 4). 数据变换: 数据变换和统一成适合挖掘的形式 5). 数据挖掘: 使用智能方法提取数据格式 6). 模式评估: 识别代表知识的有趣模式 7). 知识表示: 使用可视化和知识表示技术,向用户提供挖掘的知识 2. 为什么要进行数据挖掘 未来将是大数据时代,IDC(国际数据公司)研究报告指出 2012 年全球信息资料量为2.8Z B(2 的 40 次方 GB),而在 2020 年预计会达到 40Z B,平均每人拥有 5247GB 的数据。庞大的数据量背后隐藏着巨大的潜在价值,人们手握巨量的数据却没有很好的手段去充分挖掘其中的价值,因此对数据挖掘的研究可以帮助我们将数据转化成知识。 3. 数据挖掘的知识体系 数据挖掘作为一个应用驱动的领域,吸纳了许多应用领域的技术,包括: 统计学、机器学习、模式识别、数据库和数据仓库、信息检索、可视化、算法、高性能计算等。 数据挖掘的任务分类: 描述性任务: 刻画目标数据的一般性质 预测性任务: 归纳及做出预测 数据挖掘功能: 1). 数据特征化与数据区分 2). 频繁模式 3). 关联和相关性挖掘 4). 分类和回归 5). 聚类分析 6). 离群点分析 4. 数据挖掘应用领域 1. 金融数据分析 2 2. 零售与电信业: 例如分析零售数据有利于做出正确的决策;产品推荐;顾客保有及促销策略 3. 科学与工程数据挖掘 4. 网络数据挖掘: 社交网络用户行为分析,多媒体、文本和 w eb 数据分析 5. 信息检索: 搜索引擎、云计算、数据仓库 二. 认识数据 1. 属性总结: 标称属性:一些符号和事物的名称,如头发颜色和学历是描述人的属性。 二元属性:只有0、1 两种状态 序数属性: 可能的值具有有意义的序,如教师职称 数值属性: 定量的,用实数值表示 2. 度量数据的相似性和相异性(即数据的邻近性) 非对称二元属性: Jaccard 属性 数值属性:欧几里得距离、曼哈顿距离、闵可夫斯基距离、上确界距离 相似性评估:余弦相似性(用于比较文档)、Tanimoto 系数 3. 数据预处理 1). 数据清理:填补缺失值、光滑噪声、识别离群点、纠正数据不一致性,通常...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据挖掘概念与技术

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部