什么是数据挖掘?数据挖掘()是指从大量数据中提取或“挖掘”知识。一)概述为什么要数据挖掘()?存在可以广泛使用的大量数据,并且迫切需要将数据转转换成有用的信息和知识对何种数据进行数据挖掘?关系数据库、数据仓库、事务数据库空间数据超文本和多媒体数据时间序列数据流数据(二)数据预处理为什么要预处理数据?为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性是数据挖掘中非常重要的环节;数据库和数据仓库中的原始数据可能存在以下问题:定性数据需要数字化表示不完整含噪声度量单位不同维度高数据的描述度量数据的中心趋势:均值、加权均值、中位数、众数度量数据的离散程度:全距、四分位数、方差、标准差基本描述数据汇总的图形显示:直方图、散点图度量数据的中心趋势集中趋势:一组数据向其中心值靠拢的倾向和程度。集中趋势测度:寻找数据水平的代表值或中心值。常用的集中趋势的测度指标:均值:缺点:易受极端值的影响中位数:对于不对称的数据,数据中心的一个较好度量是中位数特点:对一组数据是唯一的。不受极端值的影响。众数:一组数据中出现次数最多的变量值。特点:不受极端值的影响。有的数据无众数或有多个众数。度量数据的离散程度反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度。常用指标:全距(极差):全距也称极差,是一组数据的最大值与最小值之差。最大值最小值组距分组数据可根据最高组上限最低组下限计算。受极端值的影响。四分位距:等于上四分位数与下四分位数之差(3)反映了中间0数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。四分位数:把顺序排列的一组数据分割为四(若干相等)部分的分割点的数值。分位数可以反映数据分布的相对位置(而不单单是中心位置)。在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)。对原始数据:中四分位数的位置为,24,34。4中四分位数的位置分别为3,4,(34。4如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。方差和标准差:方差是一组数据中各数值与其均值离差平方的平均数,标准差是方差正的平方根。是反映定量数据离散程度的最常用的指标。基本描述数据汇总的图形显示直方图:使人们能够看出这个数据的大体分布或“形状”散点图如何进行预处理定性数据的数字化表示:二值描述数据的数字化表示例如:性别的取值为“男”和“女”,男f,女f0多值描述数据的数字化表示例如:信誉度为“优”、“良”、“中”、“差”第一种表示方法:优f,良~2,中f3,差f4第二种表示方法:'ft*信嘗痕冲F100忙直厦沖“良”-01D倍聲匱为U屮E一D011時誉度为“差”-Q>0D数据清理填充空缺值不完整的数据:忽略元组人工填写使用属性的均值使用与给定元组属同一类的所有样本的属性均值消除含噪声的数据:分箱:分箱前对记录集按目标属性值的大小进行排序等深分箱法等宽分箱法用户自定义分箱之后,按箱平均值平滑,按箱边界平滑数据变换最小最大规范化s规范化小数定标数据压缩主成分分析(CA特征选择(三)数据分类分类的定义分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。分类问题使用的数据集格式:描述属性的取值可以定性的数据,也可以是定量的数据;而类别属性的取值必须是定性的数据。定量的数据是指在某一个区间或者无穷区间内取值是连续的,例如描述属性“Age”定性的数据是指该属性的取值是不连续的例如属性“Salary"和“Class”分类的过程获取数据输入数据、对数据进行量化预处理去除噪声数据、对空缺值进行处理数据变换、数据压缩分类器设计划分数据集、分类器构造、分类器测试分类决策对未知类标号的数据样本进行分类决策树的基本概念适用于定性取值属性、定量取值属性采用自顶向下的递归方式产生一个类似于流程图的树结构在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。决策树的优点:进行分类器设计时,决策树分类方法所需时间...