探索性数据分析ExploratoryDataAnalysis(EDA)第一章导言一、问题的提出1962年发表《TheFutureofDataAnalysis》,做了奠基性的工作
《ExploratoryDataAnalysis》成为探索性数据分析((EDA)的第一个正式出版物
1983年出版的《UnderstandingRobustandExploratoryDataAnolysis》,本书是它的翻译与发展
第一章导言二、定义探索性数据分析是对调查、观察所得到的一些初步的杂乱无章的数据,在尽量少的先验假定下进行处理,通过作图、制表等形式和方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法
第一章导言三、特点首先,它的研究从原始数据入手,让数据说话;第二,它的方法从实际出发,不以某种理论为根据;第三,它的分析工具简单直观,更易于普及
第一章导言四、四个主题1、耐抗性(Resistnace)即对数据的不良表现(如极端值或称奇异点)不敏感,也就是说对于数据的任意一个小部分的很大的改变,或者对于数据的大部分的很小改变,(统计)分析或概括仅产生很小的变化
2、残差(Residuals)残差是从原始数据中减去概括性统计量或所配合模型的趋势值后所剩余的部分
其公式为:残差=原数据一拟合值3、重新表述(Re-expression)重新表达(Re-expression),涉及到运用何种尺度会简化分析
4、图形启示(Revelation)探索性数据分析强调数据图形的启示作用,它能使分析者看出数据、拟合以及残差的行为,从而抓住数据中意想不到的特点
第一章导言五、用数据分析技术的整个操作步骤大体可划分成两大阶段:探索阶段证实阶段探索性数据分析强调灵活探求线索和证据;而证实性数据分析则着重评估现有证据
无论是对一大组数据,还是对相继的几小组数据作分析,一般都要经过这两个阶段;