数据挖掘概念复习资料VIP免费

下载本文档

阅读 161
下载 17
格式 pdf
大小 74.56 KB
约9页
2024-12-09 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/9页

2/9页

3/9页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

文本预览下载提示常见问题

1 数据挖掘：是从大量数据中发现有趣（非平凡的、隐含的、先前未知、潜在有用）模式，这些数据可以存放在数据库，数据仓库或其他信息存储中。挖掘流程：(1)学习应用域（2）目标数据创建集（3）数据清洗和预处理（4）数据规约和转换（5）选择数据挖掘函数（总结、分类、回归、关联、分类）（6）选择挖掘算法（7）找寻兴趣度模式（8）模式评估和知识展示（9）使用挖掘的知识概念 /类描述：一种数据泛化形式，用汇总的、简洁的和精确的方法描述各个类和概念，通过（ 1）数据特征化：目标类数据的一般特性或特征的汇总；（ 2）数据区分：将目标类数据的一般特性与一个或多个可比较类进行比较；（3）数据特征化和比较来得到。关联分析：发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件，通常要满足最小支持度阈值和最小置信度阈值。分类：找出能够描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象类，导出的模型是基于训练集的分析。导出模型的算法：决策树、神经网络、贝叶斯、（遗传、粗糙集、模糊集）。预测：建立连续值函数模型，预测空缺的或不知道的数值数据集。孤立点：与数据的一般行为或模型不一致的数据对象。聚类：分析数据对象，而不考虑已知的类标记。训练数据中不提供类标记，对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组，从而产生类标号。第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程。从一个或多个数据源收集信息，存放在一个一致的模式下，并且通常驻留在单个站点。数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造。面向主题：排除无用数据，提供特定主题的简明视图。集成的：多个异构数据源。时变的：从历史角度提供信息，隐含时间信息。非易失的：和操作数据的分离，只提供初始装入和访问。联机事务处理OLTP ：主要任务是执行联机事务和查询处理。联系分析处理OLAP ：数据仓库系统在数据分析和决策方面为用户或‘知识工人’提供服务。这种系统可以用不同的格式和组织提供数据。OLAP 是一种分析技术，具有汇总、合并和聚集功能，以及从不同的角度观察信息的能力。特征特征面向用户功能DB 数据访问OLTP 操作处理事务DBA ，办事员日常操作基于 ER 当前最新读/写OLAP 信息处理分析知识工人决策支持星型，雪花时间跨度读特征汇总用户操作访问...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容

数据挖掘概念复习资料

1 数据挖掘：是从大量数据中发现有趣（非平凡的、隐含的、先前未知、潜在有用）模式，这些数据可以存放在数据库，数据仓库或其他信息存储中

挖掘流程：(1)学习应用域（2）目标数据创建集（3）数据清洗和预处理（4）数据规约和转换（5）选择数据挖掘函数（总结、分类、回归、关联、分类）（6）选择挖掘算法（7）找寻兴趣度模式（8）模式评估和知识展示（9）使用挖掘的知识概念 /类描述：一种数据泛化形式，用汇总的、简洁的和精确的方法描述各个类和概念，通过（ 1）数据特征化：目标类数据的一般特性或特征的汇总；（ 2）数据区分：将目标类数据的一般特性与一个或多个可比较类进行比较；（3）数据特征化和比较来得到

关联分析：发现关联规则，这些规则展示属性-值频繁地在给定数据集中一起出现的条件，通常要满足最小支持度阈值和最小置信度阈值

分类：找出能够描述和区分数据类或概念的模型，以便能够使用模型预测类标号未知的对象类，导出的模型是基于训练集的分析

导出模型的算法：决策树、神经网络、贝叶斯、（遗传、粗糙集、模糊集）

预测：建立连续值函数模型，预测空缺的或不知道的数值数据集

孤立点：与数据的一般行为或模型不一致的数据对象

聚类：分析数据对象，而不考虑已知的类标记

训练数据中不提供类标记，对象根据最大化类内的相似性和最小化类间的原则进行聚类或分组，从而产生类标号

第二章数据仓库数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合，支持管理部门的决策过程

从一个或多个数据源收集信息，存放在一个一致的模式下，并且通常驻留在单个站点

数据仓库通过数据清理、变换、继承、装入和定期刷新过程来构造

面向主题：排除无用数据，提供特定主题的简明视图

集成的：多个异构数据源

时变的：从历史角度提供信息，隐含时间信息

非易失的：和操作数据的分离，只提供初始装入和访问

文库响当当 + 关注: 实名认证
内容提供者

该用户很懒，什么也没介绍

收藏店铺进入空间

数据挖掘概念复习资料VIP免费

数据挖掘概念复习资料

您可能关注的文档

相关文档

热门下载

相关标签