word 格式
第一章作业1. 数据库与数据仓库的本质差别是什么
书 P2 (1) 数据库用于事务处理, 数据仓库用于决策分析
( 2) 数据库保持事物处理的当前状态,数据仓库即保存过去的数据又保存当前的数据
( 3) 数据仓库的数据是大量数据库的集成
( 4) 对数据库的操作比较明确, 操作数量较小
对数据仓库操作不明确,操作数据量大
OLTP OLAP 细节性数据综合性数据当前数据历史数据经常更新不更新 , 但周期性刷新一次性处理的数据量小一次处理的数据量大对响应时间要求高响应时间合理面向应用 , 事务驱动面向分析 ,分析驱动8. 定义为关于数据的数据, 描述数据仓库中数据及其环境的数据
9. 元数据不仅仅是数据仓库的字典, 而且还是数据仓库本身功能的说明数据, 是整个数据仓库的核心
数据字典是关于数据库中数据的描述 , 而不是数据本身,数据字典是数据库的元数据
18、 统计学与数据挖掘的不同
统计学主要是对数量数据或连续值数据进行数值计算的定量分析, 得到数量信息
数据挖掘主要对离散数据进行定性分析,得到规则知识
在统计学中有聚类分析和判别分析,它们与数据挖掘中的聚类和分类相似
但是 , 采用的标准不一样,统计学的聚类采用的“距离”是欧式距离 , 即两点间的坐标 (数值 )距离
而数据挖掘的聚类采用的“距离 ”是海明距离 , 即属性取值是否相同,相同者距离为0,不相同者距离为1
总之 , 统计学与数据挖掘是有区别的,但是 ,它们之间是相互补充的
不少数据挖掘的著作中均把统计学的不少方法引入到数据挖掘中 ,与将机器学习中不少方法引入到数据挖掘中一样, 作为从数据获取知识的一大类方法
19、 说明数据仓库与数据挖掘的不同
数据仓库是在数据库的基础上发展起来的
它将大量的数据库的数据按决策需求进行重新组织, 以数据仓库的形式进行存储,