数据分布特征的描述讲解课件CONTENTS•数据分布特征概述•数据的集中趋势•数据的离散程度•数据的偏态与峰态•数据分布特征的图形展示•数据分布特征的应用场景与限制01数据分布特征概述定义与重要性定义数据分布特征是指数据集合中数据点在空间中的分布状况和规律,包括数据的集中趋势、离散程度、形态等
重要性数据分布特征是数据分析中重要的概念和方法,通过对数据分布特征的描述和分析,可以深入了解数据的基本规律和特征,为数据挖掘、预测和决策提供支持
数据分布的常见类型偏态分布数据分布形态不对称,有正偏态和负偏态之分,典型的数据集包括人的寿命、股票价格等
钟形分布钟形曲线是常见的分布形态,其中平均值、中位数和众数大致相等,典型的数据集包括考试分数、人类身高体重等
峰态分布峰态分布是指数据分布的尾部形态,有尖峰和平峰之分,典型的数据集包括人类的智商、投资回报等
数据分布特征的描述方法统计指标直方图通过均值、中位数、标准差等统计指标描述数据的集中趋势和离散程度
通过直方图描述数据分布的形态、集中趋势和离散程度,可以直观地展示数据的分布情况
Q-Q图箱线图通过Q-Q图描述数据分布的形态,可以判断数据是否符合钟形分布、偏态分布等常见类型
通过箱线图描述数据的四分位数、上下边缘、中位数等统计指标,可以直观地展示数据的分布情况、异常值和离群点等
02数据的集中趋势平均数注意点计算方法D平均数容易受到极端值的影响,如果数据中有一些非常大的或者非常小的数值,那么平均数的代表性可能会被削弱
将一组数据中的所有数值加起来,再除以数据的个数
CB适用场景定义A当数据的分布比较均匀,或者数据量较大时,使用平均数来描述数据的集中趋势比较合适
平均数是描述一组数据集中趋势的最常用的指标,它代表了数据的“平均”水平
中位数定义计算方法中位数是一组数据按大小顺序排列后,位于中间将一组数据按大小顺序排列,然后找到中间位置