3】假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库
该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)所修课程以及他们的GPA(平均积分点)
描述你要选取的结构
该结构的每个成分的作用是什么
答:该数据挖掘结构应该包括以下几个主要成分:(1)一个数据库、数据仓库或其它信息库,它由一系列包含学生和课程信息的数据库、数据仓库、电子表格、或其它信息库组成
(2)一个数据库或数据仓库服务器,它根据用户的数据挖掘请求获取相关的数据
(3)一个知识库,它包含领域知识,用于指导搜索或评估结果模式的兴趣度
例如,知识库可能包含概念层次结构和元数据(例如,描述来自多个异构数据源的数据)
(4)一个数据挖掘引擎,它由一系列负责分类、关联、聚类分析、演变和偏差分析的功能模块组成
(5)一个模式评估模块,它与数据挖掘模块串联工作,采用兴趣度的方法,将搜索重心投注在兴趣模式上
(6)一个图形用户界面,它为用户提供对数据挖掘系统的交互式途径
4】中列数是最大值和最小值的平均数
五数概括就是中位数、四分位数Q1和Q3、最小值和最大值箱线图(盒图)在p35分位数图是一种观察单变量数据分布的简单有效方法,他显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)
其次它绘出了分位数信息3
5】问:以计数、标准差和中位数为例说明分布的或代数的度量有利于有效的增量计算,而整体度量不行
答:计数:当前的计数count可以作为一个值来保存,当有x个新值加进来时,可以很容易地更新count值为(count+x)
这就是分布式度量,可以很容易地进行增量计算
标准差:如果我们之前存储了已有数据平方的和sum和它们的计数count,就可以很容易地利用公式得到新的标准差,只需要计算新加入数据平方的和并将其加入s