电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

试谈数据挖掘总结VIP免费

试谈数据挖掘总结_第1页
1/9
试谈数据挖掘总结_第2页
2/9
试谈数据挖掘总结_第3页
3/9
1.【p261.3】假设你是BigUniversity的软件工程师,任务是设计一个数据挖掘系统,分析学校课程数据库。该数据库包括如下信息:每个学生的姓名、地址和状态(例如本科生或研究生)所修课程以及他们的GPA(平均积分点)。描述你要选取的结构。该结构的每个成分的作用是什么。答:该数据挖掘结构应该包括以下几个主要成分:(1)一个数据库、数据仓库或其它信息库,它由一系列包含学生和课程信息的数据库、数据仓库、电子表格、或其它信息库组成。(2)一个数据库或数据仓库服务器,它根据用户的数据挖掘请求获取相关的数据。(3)一个知识库,它包含领域知识,用于指导搜索或评估结果模式的兴趣度。例如,知识库可能包含概念层次结构和元数据(例如,描述来自多个异构数据源的数据)。(4)一个数据挖掘引擎,它由一系列负责分类、关联、聚类分析、演变和偏差分析的功能模块组成。(5)一个模式评估模块,它与数据挖掘模块串联工作,采用兴趣度的方法,将搜索重心投注在兴趣模式上。(6)一个图形用户界面,它为用户提供对数据挖掘系统的交互式途径。2.【p632.4】中列数是最大值和最小值的平均数。五数概括就是中位数、四分位数Q1和Q3、最小值和最大值箱线图(盒图)在p35分位数图是一种观察单变量数据分布的简单有效方法,他显示给定属性的所有数据(允许用户评估总的情况和不寻常的出现)。其次它绘出了分位数信息3.【p632.5】问:以计数、标准差和中位数为例说明分布的或代数的度量有利于有效的增量计算,而整体度量不行。答:计数:当前的计数count可以作为一个值来保存,当有x个新值加进来时,可以很容易地更新count值为(count+x)。这就是分布式度量,可以很容易地进行增量计算。标准差:如果我们之前存储了已有数据平方的和sum和它们的计数count,就可以很容易地利用公式得到新的标准差,只需要计算新加入数据平方的和并将其加入sum中,同时更新count值,随后将它们插入计算中就可获得新的标准差。这些都不用重新扫描整个数据集而可以轻松得到。这就是代数度量,可以容易进行增量计算。中位数:要准确得到中位数必须扫描整个数据集。当加入了新的数据后必须重新进行排序然后在新的排序后的数据集中查找中位数。这是比较困难的,这就是整体度量,没办法对增量进行有效的计算。4.【p632.6】数据缺省值处理(1)忽略元组。当缺少类标号时通常这样做(假定挖掘任务涉及分类)。除非元组有多个属性缺少值,否则该方法不是很有效。当每个属性缺少值的百分比变化很大时,它的性能特别差。(2)人工填写缺失值。一般该方法很费时,并且当数据集很大,缺少很多值时,该方法可能行不通。(3)使用一个全局常量填充缺失值。将缺失的属性值用同一个常数(如“Unknown”)替换如果缺失值都用“Unknown”替换,则挖掘程序可能误以为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”。因此,尽管该方法简单,但是它并不是十分可靠。(4)使用属性的均值填充缺失值。(5)使用与给定元组属同一类的所有样本的属性均值。(6)使用最可能的值填充缺失值。可以用回归、使用贝叶斯形式化的基于推理的工具或决策树归纳确定。5.【p632.7】(1)问:使用分箱均值光滑对数据进行光滑的步骤(深度为3)答:①对数据进行排序;②将数据划分到大小为3的等频箱中;③计算每个箱的均值;④箱中的值都被箱的均值替换。(2)问:如何确定数据中的离群点答:可以通过聚类来检测离群点,将类似的值组织成群或簇。直观地,落在簇集合之外的值视为离群点。电脑和人的检查可以结合来判断,先由电脑根据已有的数据分布状况得出可能的离散点,然后再由人来对这些可能的离散点进行进一步的分析来确定离散点,这样大大地减少了人单独工作的工作量。(3)问:对于数据光滑还有哪些方法答:类似的还有分箱中位数光滑,此时箱中的每一个值都被箱中位数替换。分箱边界光滑箱中的最大和最小值同样被视为箱边界,箱中的每个值都被最近的边界值替换。一般来说宽度越大光滑效果越大。箱可以是等宽的,每个箱值的区间范围是个常量。此外可以用一个函数(如回归函数)拟合数据来光滑数据。线性回归涉及找出拟合两个...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

试谈数据挖掘总结

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部