分类变量的分析 一.分类变量 分类变量有有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压 1 期、II 期、III 期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量
在分析方法中差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是 RXC 列联卡方,而有序变量也就是等级资料就得用秩和检验
在多元回归时,有序变量和二分类变量都是赋值 1、2、3 或 0、1 求得一个 OR 或 RR 值,而无序资料就必须要设置哑变量(虚拟变量),例如职业工人、农民、教师
你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个 OR 或 RR 值,解释为每增加一个等级发生某病得危险性增加多少倍
那么在无序变量就意味着工人增加一个等级,这是不可能的
因为这样得变量各等级之间不存在 1、2、3得数学关系
在有序变量中,我们可以多元回归来检验假设,运用的原理时最小二乘法
在无序变量中,我们必须引用哑变量(虚拟变量)来实 现logistic 回归
在运用logistics 回归分析之前我们必须先要理解虚拟变量
二.下面的重点就是关于虚拟变量的讲解
1.虚拟变量的含义 虚拟变量是用以反映质的属性的一个人工变量,取值为 0 或 1,通常记为 D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量
(注意:虚拟变量D 只能取0 或1 两个值,即属性之间不能运算
对基础类型或否定类型设 D=0 对比较类型或肯定类型设 D=1)如 1 男性 D = 0 女性 但是, 虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素
例如:在建立储蓄函数时,“年龄”是一个重要的解释变量