RatioandRegressionEstimator引例:1802年,拉普拉斯想要估计法国的人口数目
他获得了一个遍布全国范围的30个社区(commune)的样本,截至1802年9月23日总共有2037615居民
在包括1802年9月23日以前的三年中,215599个新生儿在30个commune
拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866
把2037615按照71866
33来分,拉普拉斯估计每年每28
35人里有一个注册新生儿
具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28
35乘以全法国年度新生儿总数来估计得出法国人口总数
调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度
一、为什么要使用比率估计/回归估计利用总体的辅助信息提高估计的精度
辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系
第二,的抽样分布较的抽样分布变动性要小得多
第三,辅助指标的总体总量或总体均值已知
比率估计、回归估计需要有足够的样本量才能保证估计的有效
有偏估计:当样本量足够大时,估计的偏倚趋于0
简单地想要估计一个比率:假定总体由面积不同农业用地构成,地谷物的产量,地的面积,B=每亩谷物的平均产量
想要估计一个总体总数,但总体大小N是未知的
但是我们知道,于是可以通过来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量
要估计渔网中长度长于12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果N未知不能使用
能称量渔网中鱼的总重量
鱼的长度与其重量相关
调整来自样本的估计量以便它们反映人口统计学的总量
在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含240个女性,16