二项 Logistic 回归参数最大似然估计的计算 1 Logistic 回归的基本思想 在地震风险评估中,研究者往往关心地震发生时,地表发生破裂的概率,地表破裂是由哪些因素引起的等问题。 利用以往的相关数据找出统计规律性来解决这些问题,实质上可以转化为一个多元回归分析问题( )Yfx,其中12[ ,,,]Tkx xxx, 为随机变量。 由于因变量Y 的取值只有两个状态:破裂(1Y )和不破裂(0Y ),因此直接寻找因变量Y 和自变量 x 的关系非常困难。于是,可以把研究问题转换一个角度,不去直接分析Y 和x 的关系,而是分析条件概率 {1 }P Y x 和 x 的关系,这等价于寻找一个取值在 0 到 1 之间的连续函数 ( ){1 }pP Yxx 。 数学上满足这种条件的函数存在且不唯一,Logistic 回归就是满足这种要求的函数之一。和线性回归分析类似,Logistic 回归基本原理就是利用一组观测数据拟合一个 Logistic 模型,然后借助这个模型来揭示总体中若干个自变量与一个因变量取每个值的概率之间的依存关系,并评估用这一模型模拟相关事物变化规律的准确性。具体地说,Logistic 回归分析可以从统计意义上确定在消除了其它变量的影响后,每一个自变量的变化是否引起因变量取某个值的概率的变化,并估计出在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。 在使用 Logistic 回归分析前,需要明确模型的使用条件:1、要求因变量是分类变量,包括顺序变量和名义变量,不管哪种变量,都要用数字表示它,如可以令1Y 表示地震发生时地表破裂,令0Y 表示地震发生时地表未破裂;2、自变量可以是(i)数值型连续变量,如地震的震级,(ii) 顺序变量,如覆盖层的厚度分组(10-20m,20-40m 等),(iii)名义变量,如地震类型,可令走滑型地震为 1,正断型地震为 2,逆冲型地震为 3。 2 多元二项 Logistic 回归模型的定义 由于地震发生时地表是否破裂受到多个因素的影响,故引入多元 Logistic 回归模型。假设因变量Y 是一个取值为 1 和 0 的二值变量,12[ ,,,]Tkx xxx是影响Y 的 k 个因素,回归系数01[,,,]Tk β,则Y 关于 x 的k 元 Logistic 回归模型定义为 01 12201 122exp()exp([1,] )( ){1 }1 exp()1 exp([1,] )TkkTkkxxxpP Yxxxxβxxxβ (1) 由式(1)可得 1{0}1exp([1,] )TP Y xxβ (...