科学分析得出解决问题的答案数据分析与决策0102030405数据来源数据分类数据处理与特征数据统计分析与展现决策数据来源PART01•统计调查a.普查b.随机抽样调查简单随机抽样、分层抽样、系统抽样、整群抽样调查等.c.非随机抽样调查•实验设计•参与观察法•通过国家统计部门、第三方公司、互联网等手段获取的二手资料.数据来源直接间接数据分类PART02•定类资料对事物进行分类或分组得到的结果。如性别、民族、婚姻状况、汽车牌照等•定序资料明显的等级或顺序关系的资料如学生成绩、技术水平、文化程度等•定距资料具有定序特征并且任意两个数之间可以比较大小的统计资料.如产量的件数、人的年龄•定比资料拥有定距资料的所有特征并且拥有绝对零点如重量、体积、长度等数据分类属性与数量•截面资料同一时点搜集起来的有关研究总体各个单位的资料•时间序列资料若干时间节点搜集来的资料按照时间先后顺序排列在一起•面板资料截面资料与时间序列资料交织在一起构成了面板资料数据分类数据组合分类•计数型将观察单位按其性质或类别分组,然后清点各组观察单位个数所得的资料•计量型连续的数据,通常有具体的数值,如产品的尺寸、人的身高等数据内容数据处理与特征PART03一.数据质量检查的后验技术a.逻辑关系分析法b.设置疑问框法c.与独立来源数据对比法二.数据质量检查的抽样方法在数据收集后,从收集的样本中抽取一定比例的数量组成新的样本重新调查,最后将结果进行比对数据处理数据质量数据检查一.数据误差误差=观察值-相对真值离差越大说明数据质量差,离差越小说明数据质量好二.数据质量的影响因素a.调查准备工作不充分引起的误差.b.数据搜集阶段可能产生的误差.c.数据处理阶段发生的错误.录入、分类、计算过程等同类型数据•算术平均数X=(X1+X2+...+Xn)/n•中位数当N为奇数时,Me=X(N+1)/2;当N为偶数时,Me=[X(N/2)+X(N/2+1)]/2•众数10、20、30、15、15、10、10数量资料的特征数字集中趋势•极差R=Xn-X1•四分位数差IQR=Q3-Q1•方差与标准差S离散趋势1数据资料标准化变异系数Cs=S/X*100%23切比雪夫经验准则数据结合应用日期上证指数深成指数11月12日32231305911月13日35801334811月14日32431321911月15日33761281211月16日32761340711月17日34241393411月18日33691236511月19日33511190211月20日34181241711月21日3349139082.91%4.85%获取最大利益选哪个?统计分析中最常用的方法,用来确定数据的相对位置Xj“={Xj--X}/S数据统计分析与展现PART04数据统计分析与展现根据数据分析的目的来选择统计分析的工具5842韩极在职人员年龄构成20~25岁25~30岁30~35岁35~40岁5842韩极在职人员年龄构成20~25岁25~30岁30~35岁35~40岁饼图--圆环图结构组成用于分析和掌握资料的结构组成,描计数型数据.柏拉图—帕累托图来源于二八定律用从高到低的顺序排列成矩形,表示各原因出现频率高低的一种图表,其原理是80%的问题仅来源于20%的主要原因注意几点明确问题和现象;寻找不良的情况统计资料;频率计算和累计;对频率从高到低的顺序排列;组装外壳不良功能按键不良扫描头黑点桌面支架脏污扫描头支架露白集线器外壳松动性能测试断开连接产品与扫描头配合产品外壳黑点0123456780.00%20.00%40.00%60.00%80.00%100.00%120.00%72211111141.18%52.94%64.71%70.59%76.47%82.35%88.24%94.12%100.00%OQC检验不良项目分布识别分散情况箱线图—盒式图用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述连续性数据识别数据异常值判断数据偏态和尾重比较几批数据的形状散点图识别分散情况研究成对出现的不同变数之间相关关系的坐标图注意几点:§收集足够的资料,至少30对§横坐标表示资料(原因),纵坐标表示因变量(结果)§正确判断变量之间的关系模式§因果图的后续工作,提供直观的相关性验证强正相关弱正相关强负相关弱正相关SL=130Sμ=160120.5124.5128.5132.5136.5140.5144.5148.5直方图分布状况用于分析和掌握资料的分布状况,描述连续性数据注意几点:§确定过程特性和计量标准值;§收集数据,必须是计量值资料;§资料针对一个范围时期收集至少5...