电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

探索性数据分析VIP免费

探索性数据分析_第1页
1/19
探索性数据分析_第2页
2/19
探索性数据分析_第3页
3/19
探索性数据分析ExploratoryDataAnalysis(EDA)第一章导言一、问题的提出1962年发表《TheFutureofDataAnalysis》,做了奠基性的工作。《ExploratoryDataAnalysis》成为探索性数据分析((EDA)的第一个正式出版物。1983年出版的《UnderstandingRobustandExploratoryDataAnolysis》,本书是它的翻译与发展。第一章导言二、定义探索性数据分析是对调查、观察所得到的一些初步的杂乱无章的数据,在尽量少的先验假定下进行处理,通过作图、制表等形式和方程拟合、计算某些特征量等手段,探索数据的结构和规律的一种数据分析方法。第一章导言三、特点首先,它的研究从原始数据入手,让数据说话;第二,它的方法从实际出发,不以某种理论为根据;第三,它的分析工具简单直观,更易于普及。第一章导言四、四个主题1、耐抗性(Resistnace)即对数据的不良表现(如极端值或称奇异点)不敏感,也就是说对于数据的任意一个小部分的很大的改变,或者对于数据的大部分的很小改变,(统计)分析或概括仅产生很小的变化。2、残差(Residuals)残差是从原始数据中减去概括性统计量或所配合模型的趋势值后所剩余的部分。其公式为:残差=原数据一拟合值3、重新表述(Re-expression)重新表达(Re-expression),涉及到运用何种尺度会简化分析。4、图形启示(Revelation)探索性数据分析强调数据图形的启示作用,它能使分析者看出数据、拟合以及残差的行为,从而抓住数据中意想不到的特点。第一章导言五、用数据分析技术的整个操作步骤大体可划分成两大阶段:探索阶段证实阶段探索性数据分析强调灵活探求线索和证据;而证实性数据分析则着重评估现有证据。无论是对一大组数据,还是对相继的几小组数据作分析,一般都要经过这两个阶段;通常还要交替的使用探索性技术和证实性技术,循环反复多次,才能得到满意的结果。第一章导言六、探索性数据分析的现状和前景七、课程主要内容主要内容:启示重新表达耐抗性残差茎叶图字母图箱线图展布对水平图数据变换Y对x的耐抗线用中位数分析双向表稳健统计第二章茎叶图一、功能最普通的数据结构是一批数,我们称之为一个“批”。即使这么简单的数据结构,也有某些特征不容易由审视或细察这些数看出来。茎叶图提供了一种开始分析一个数据批或一个数据样本的灵活而有效的技术。1、看到整个一批数;2、接近对称的程度;3、有多大展布(离散程度);4、是否有些数远离其余数(离群值或异常值);5、是否有数据集中;6、数据中是否有间隙(7、容易发现中位数或其他总括统计量8、可以看出数据值区间分布模式)第二章茎叶图二、基本茎叶图的构造把一批数据从小到大排序并且显示这个批。现在用一个例子说明茎叶图的构造过程。表2一1给出21个妇女的平均月经周期。二、基本茎叶图的构造表2一121名妇女的平均月经周期以下我们构造最简单形式的茎叶图。VALUE31302928272622Undefinederror#60868-Cannotopentextfile"C:\PROGRA~1\SPSS\en\wind76543210第二章茎叶图三、深度1、数值深度的定义把一批数据进行排序,某一数值在升序排列中的位次是它的升秩;该数值在降序排列中的位次是它的降秩。数据值的升秩和降秩这两者的最小值,叫做这个数据的深度(Depths)。升秩+降秩=n+1三、深度2、行深度的确定除中行以外,深度(Depths)列中的数是这一行数据深度中的最大深度。“中行”中位数所在行三、深度3、作用有些总括值(例如,中位数以及四分数)可以很容易地用它们的深度来定义,所以,在茎叶图中显示数据的深度是有用的。“中行”包含中位数,在深度列中用括号括起来的数是中行所包含叶的数目,将此叶的数目数加上相邻两行的深度,应该等于批容量,这可以检查分析中有没有遗漏数据值。

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

探索性数据分析

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部