1多重线性回归(multiplelinearregression)2复习:线性相关与回归(linearcorrelationandregression)相关系数r(correlationcoefficient)r的假设检验线性相关线性回归回归方程(regressionequation)其中a为截距(intercept);b为回归系数(coefficientofregression)bXay给定X的数值,Y的数值取在一个平均值(y|x)附近对应于不同的X值,Y的平均值座落在一条直线上----回归直线
y|x和X的关系可用一个线性方程描写
|yxX简单线性回归方程总体样本“Yhat”表示估计值,给定x时y的总体均数的估计值
ˆYabXXXY直线回归方程的求解:最小二乘原理ˆYabXYXˆiiYY线性回归分析的前提条件•线性(linear)–反应变量Y与自变量X呈线性变化趋势•独立(independent)–任意两个观察值相互独立,一个个体的取值不受其他个体的影响•给定X时,Y正态分布(normal)–给定X取值时,Y的取值服从正态分布•等方差(equalvariance)–指对应于不同的X值,Y值的总体变异相同直线回归应用条件LINE示意图[例]携带火柴和发生肺癌间的关系的研究
人们观察发现那些携带火柴的人更有可能发生肺癌
难道这表明携带火柴可能引起肺癌
这中间存在混杂因素---吸烟客观事实,携带火柴不可能引起肺癌
混杂因素的影响携带火柴
肺癌吸烟混杂因素的定义•当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素
排除混杂因素的两种方法★分层分析★多元统计分析分层分析的优缺点优点:直观简洁
缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时无法实现
多元统计分析的特点优点有两个