倾向匹配分析深度(Propsensitymatchinganalysis)有很多现象和关联似乎显而易见,然而证明这些“简单”的现象和关联的过程,可能极其消耗人力和物力。在20世纪30年代之前,匹配法(也称控制法)在因果研究中占据了压倒性的地位,科学家认为只有将实验组和对照组的所有情况都尽可能接近,才能两组间的差异是否归于处理因素。但是,在要让实验组和对照组之前的特征(混杂)尽可能匹配,不仅难以操作,而且会消耗大量资源,尤其在很多情况下,很多因素是试验者难以去控制的。随机化概念的起源在伊利诺伊大学的莫柔地块(UniversityofIllinois,MorrowPlots),Fisher通过“分割地块实验”((Split-PlotExperiment),成功证明了一个在今天看来可能极其简单,但却耗费了几代科学家上百年努力的结论:土壤的质量是农业生产率最关键的决定因素(Soilqualityisavitalcomponentofagriculturalproductivity)。并开拓了如今广为人知的方差分析(ANOVA),将随机实验法纳入了因果分析的殿堂,成为因果分析的金标准。为什么要做倾向值分析在卫生领域,随机临床试验(RCT)是应用随机实验法最典型的例子。为了证明某种处理(或因素)的作用,将研究对象随机分组并进行前瞻性的研究,可以最大程度上确保已知和未知的混杂因素对各组的影响均衡,阐明处理因素的真实效应。但RCT对研究对象严格的纳入和排除标准,无疑会影响研究结果的外推,同时费用和组织困难问题很多时候都是让人难以承受的。此外,很多研究问题无法做到随机,甚至有些情况下的随机是违反伦理道德的。而非随机对照研究(如观察性研究和非随机干预研究)能够较好地耐受RCT中存在的问题,在实际应用中更为广泛。如何利用非随机化研究的资料探究因果,一直是流行病学和统计学研究中非常关注的问题。传统的控制混杂的方法如分层、匹配等控制的混杂因素有限,多因素分析的方法在概念上“控制了其他因素,探究某一因素的影响”,依然无法控制混杂因素所导致的偏性。在这种情况下,倾向值分析(Propensityscoreanalysis)的理论和实践不断丰富,并在流行病学、经济学、社会科学等领域得到广泛应用。举一个简单的例子。我们常认为重点学校的对于学生学习能力的提升是优于一般学校的。如果把学校类型视为处理因素,而结局指标为入学后成绩的改变量。那么不同学校间学生成绩改变量的差异,究竟是因为学校不同(处理因素,简单理解为师资、设施等条件的综合),还是因为考入重点学校的学生,本身就比一般学校的学生更聪明,更勤奋,家长的受教育水平更高,对教育的投资更大(混杂因素)?如果控制这些混杂因素以后,学校对成绩的影响,是否就会发生很大变化?学生进入何种学校学习(接受不同处理)的概率是不同的,受到了很多因素的影响,而这些因素同时可能也会影响结局,导致分析处理效应时的偏性。倾向值就是研究的个体在一定可观测到的协变量(混杂)存在的情况下,接受某种干预的可能性。而倾向评分析,就是利用倾向值从对照组中为处理组中的每个个体寻找一个或多个背景特征相同或相似的个体作为对照,使两组的混杂因素的分布也趋于均衡,实现类似于随机化设计中的随机分配干预的目的。倾向值分析的步骤经典的倾向值分析主要包括以下3步(上图来自推荐书目1,P85)1.寻找最佳的协变量,构建估计倾向值的模型。模型的因变量为是否接受处理,自变量通常是同时影响处理因素和结局的变量(混杂),或是在干预组和对照组之间分布不均衡的变量。倾向值的模型以logistic回归模型最为常见,构建理想的倾向值模型和以是否接受处理为因变量,找到最恰当的自变量组合的logistic回归其实在原理上几乎是完全一致的。模型系数的假设检验、拟合度、逐步法筛选变量等,此外,一种较新的自动选择的算法一般加速建模(GBM)法也可用于选择变量和构建模型。通过构建的模型,可以计算出每个研究对象的倾向值评分,它代表了研究对象接受处理的可能性。因此,具有相同倾向值的研究对象,在模型中的协变量是均衡可比的(而并非取值上完全一致)。2.匹配根据倾向值的结果,从对照组中选择1:M个倾向值接近的个体与处理组匹配。如果处理组和对照组在协变量的分布上...