市场研究中的抽样与数据分析华南国际市场研究有限公司2001年10月25日统计分析初步统计学是什么?•市场研究=统计学?•营销的现实与统计的假设的吻合性?•统计学是是市场研究一项不可或缺的工具。这是因为,绝大多数的市场研究活动都是抽样调查而不是普查,我们对一个市场任何一个侧面的描述几乎都是在一定置信水平下对总体的推断统计分析基础知识:测量水平•数据的类型又叫做测量水平(LevelofMeasurement)。一般来说,数据可以分为两个大类,四个测量水平–分类数据/定性数据/非度量型数据:定类数据,定序数据–连续型数据/定量数据/度量型数据:定距数据,定比型数据•定类数据(NominalData):数据的值仅用于识别目的;数据的大小和水平比较没有意义;不适用于四则基本运算;典型的例子有:性别,职业,婚姻状况等•定序数据(OrdinalData):数据的值是依据一定的顺序而赋予的;可以依据数值水平的不同排序;不适用于四则基本运算;典型的例子有:文化程度,年份•定距数据(IntervalData):数值大小的差异可以比较;没有绝对的零点;适用于加减运算;典型的例子有:温度,态度评分•定比数据(RatioData):数值的绝对大小可以比较;具有真实(绝对)的零点;适用于所有的算术运算;典型的例子有:购买产品的数量,家庭月总收入,刷牙的频率统计分析基础知识:集中趋势与离散趋势分析•集中趋势分析(CentralTendencyAnalysis)也叫位置测量(MeasuresofLocation),通常有如下指标:–众数(Mode):发生率最高的数值;适用于所有的测量水平–中位数(Median):数值排序后正好位于中间位置的数;适用于定序、定距、定比数据–算术平均数或均值(Mean):各数值的简单平均;适用于定距数据与定比数据–几何平均数(GeometricAverage)与调和平均数(HarmoniousAverage):市场研究中罕用;只适用于定比数据•离散趋势分析(MeasuresofDispersion)–全距或离差(Range):一个度量型变量最大值与最小值的差–方差(Variance):一个变量所有值与其平均值之差的平方的平均数–标准差(StandardDeviation):方差的平方根–均值的标准误差(StandardErrorofMean):标准差与样本数平方根之比值统计分析基础知识:数据加权•加权(Weighting)的目的是为了使我们在项目中选取的样本更好地反应总体的结构•当人口背景资料对一种产品的认知或消费有显著影响时,加权显得尤为重要•某组/群样本过多•不同反应率•年龄/性别/区域比较接近抽样调查方法与抽样误差抽样调查•节约费用•节省时间•可获得更深入/广泛的信息•数据的质量往往较普查更好抽样的基本概念•总体和样本•总体指标和样本指标(统计量)•抽样单元和抽样框•抽样误差(精确度)和非抽样误差(准确度)抽样误差抽样误差抽样误差•样本和母体之间的差异–样本规模–样本分布或离散程度–母体大小–样本的设计(抽样方法)非抽样误差非抽样误差•拒访•访问偏差(访问员和被访者)•过程偏差抽样误差是可测量的(对于概率抽样)在研究中无法测量-可以通过更好的访问控制和研究设计减少置信度的概念•置信度就是用样本指标来推算总体指标的把握程度•置信区间就是以一定概率把握程度确定总体指标所在区间µ=X+SESE=ZCLSXZ值:标准正态变量值-3µ-2µ-1µ0µ1µ2µ3µ标准正态分布68.27%95.45%99.73%抽样误差•抽样误差一般以方差或标准误差形式给出•样本的标准误差(E)•样本比例的标准误差nSNnN1nPpNnN)1(1样本规模的决定•影响因素–在置信度水平下的Z值•Z=1.96,CL=95%•Z=2.68,CL=99%•Z=1.65,CL=90%–样本标准差(S)–可容许误差(E)•N=(ZS/E)2保守估计:N=(Z/2E)2E=Z/2一般说来,总体规模对样本规模没有直接的影响,只是总体方差对样本规模有着影响。n不同样本、置信区间下的抽样误差分析5010020030040050060070080090010000510152090%C.I.95%C.I.97.5%C.I.99%C.I.samplesize+%error不同样本不同置信条件下的抽样误差N=CL=90%CL=95%CL=99%6003.364.005.263004.755.667.442505.206.208.152005.826.939.111207.518.9511.761008.229.8012.88809.2010.9614.40抽样的基本限制和最低限度•如果我们在分析过程中把所有样本分成不同的群体(组...