什么是数据挖掘
数据挖掘()是指从大量数据中提取或“挖掘”知识
一)概述为什么要数据挖掘()
存在可以广泛使用的大量数据,并且迫切需要将数据转转换成有用的信息和知识对何种数据进行数据挖掘
关系数据库、数据仓库、事务数据库空间数据超文本和多媒体数据时间序列数据流数据(二)数据预处理为什么要预处理数据
为数据挖掘过程提供干净、准确、简洁的数据,提高数据挖掘的效率和准确性是数据挖掘中非常重要的环节;数据库和数据仓库中的原始数据可能存在以下问题:定性数据需要数字化表示不完整含噪声度量单位不同维度高数据的描述度量数据的中心趋势:均值、加权均值、中位数、众数度量数据的离散程度:全距、四分位数、方差、标准差基本描述数据汇总的图形显示:直方图、散点图度量数据的中心趋势集中趋势:一组数据向其中心值靠拢的倾向和程度
集中趋势测度:寻找数据水平的代表值或中心值
常用的集中趋势的测度指标:均值:缺点:易受极端值的影响中位数:对于不对称的数据,数据中心的一个较好度量是中位数特点:对一组数据是唯一的
不受极端值的影响
众数:一组数据中出现次数最多的变量值
特点:不受极端值的影响
有的数据无众数或有多个众数
度量数据的离散程度反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度
常用指标:全距(极差):全距也称极差,是一组数据的最大值与最小值之差
最大值最小值组距分组数据可根据最高组上限最低组下限计算
受极端值的影响
四分位距:等于上四分位数与下四分位数之差(3)反映了中间0数据的离散程度,数值越小说明中间的数据越集中
不受极端值的影响
可以用于衡量中位数的代表性
四分位数:把顺序排列的一组数据分割为四(若干相等)部分的分割点的数值
分位数可以反映数据分布的相对位置(而不单单是中心位置)
在实际应用中四分位数的计算方法并不统一(数据量大时这些方法差别不大)
对原始数据: