可编辑范本第一章1
数据挖掘的定义
从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程
数据挖掘的源是否必须是数据仓库的数据
可以有哪些来源
关系数据库数据仓库事务数据库高级数据3
数据挖掘的常用方法
聚类分析决策树人工神经网络粗糙集关联规则挖掘统计分析4
数据挖掘的过程包括哪些步骤,每一步具体包括哪些内容
数据挖掘与数据仓库的关系
(联系和区别)联系:数据仓库为数据挖掘提供了更好的、更广泛的数据源;数据仓库为数据挖掘提供了新的支持平台;数据仓库为更好地使用数据挖掘工具提供了方便;数据挖掘为数据仓库提供了更好的决策支持;数据挖掘对数据仓库的数据组织提出了更高的要求;数据挖掘为数据仓库提供了广泛的技术支持
区别:数据仓库是存数据,数据挖掘是用数据
数据仓库的定义数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策制定过程2
数据仓库数据的四大基本特征:面向主题的集成的不可更新的随时间变化的3
数据仓库体系结构有3 个独立的数据层次:可编辑范本信息获取层、信息存储层、信息传递层4
它对数据仓库有什么影响
(1)是指数据仓库的数据单位中保存数据细化或综合程度的级别
粒度越小,细节程度越高,综合程度越低,回答查询的种类就越多;(2) 影响存放在数据仓库中的数据量大小;影响数据仓库所能回答查询问题的细节程度
在数据仓库中,数据按照粒度从小到大可分为死哥级别:早期细节级、当前细节级、轻度细节级和高度细节级
数据分割的标准:可按日期、地域、业务领域、或按多个分割标准的组合,但一般包括日期项
数据仓库设计中,一般存在着三级数据模型:概念数据模型、逻辑数据模型、物理数据模型8
数据仓库涉及步骤概念模型设计、技术准备工作、逻辑模型设计、物理模型设