Ratio and Regression Estimator 引例:1802年,拉普拉斯想要估计法国的人口数目。他获得了一个遍布全国范围的30个社区(commune)的样本,截至1802年9月23日总共有2037615居民。在包括1802年9月23日以前的三年中,215599个新生儿在30个commune。拉普拉斯认为30个commune的每年注册的新生儿数为215599/3=71866.33。把2037615按照71866.33 来分,拉普拉斯估计每年每28.35人里有一个注册新生儿。具有众多人口的乡镇也就可能有同样众多的注册新生儿,通过用28.35乘以全法国年度新生儿总数来估计得出法国人口总数。调查中都有辅助信息,抽样框也通常有每个单元额外的信息,这些信息能被用来提高我们的估计精度。 一、为什么要使用比率估计/回归估计 利用总体的辅助信息提高估计的精度。辅助指标的选择:第一,辅助指标应该与调查指标有较好的正的相关关系。第二,xy 的抽样分布较uxy 的抽样分布变动性要小得多。第三,辅助指标的总体总量或总体均值已知。比率估计、回归估计需要有足够的样本量才能保证估计的有效。有偏估计:当样本量足够大时,估计的偏倚趋于 0。 简单地想要估计一个比率:假定总体由面积不同农业用地构成,iyi 地谷物的产量,ixi 地的面积,B=每亩谷物的平均产量。 想要估计一个总体总数,但总体大小 N是未知的。但是我们知道,于是可以通过yNty ˆ来估计N,由此我们可以使用不同于总数N的方法而是采用辅助变量来进行测量。 要估计渔网中长度长于 12cm的鱼的总数,抽取一个鱼的随机样本,估计长度长于 12cm的鱼所占的比例,用鱼的总数N乘以这个比例即可得到,但如果 N未知不能使用。能称量渔网中鱼的总重量。鱼的长度与其重量相关。xtytxyr ˆ 调整来自样本的估计量以便它们反映人口统计学的总量。在一所具有4000名学生的大学提取一个400个学生的简单随机样本,此样本可能包含 240个女性,160个男性,且其中被抽中的84名女性和 40名男性计划以教学为毕业后的职业。 以教学为职业的总量估计:12401244004000 调整后的总量估计:1270130016040270024084 比率估计量被用来对无回答进行调整。设抽取一个行业的样本:令iy 为i 行业花费在健康保险上的金额,ix 为i 行业的雇员数。假定对总体中的每个行业ix 均已知.我们希望一个行业花费在健康保险上的金额与雇员数相关。某些行业在调查中可能涉及不到。估计保险费用的总花销时调整无回答的方法之一是用总体数X 乘以比率 xy 。 二、Ratio E...