评分卡开发流程文档一、数据集切分将数据集按照70%与30%比例切分为训练集和测试集两部分;二、分别对训练集与测试集进行数据预处理1
衍生变量:进行衍生的变量1)未销户信用卡最近6个月平均使用率=未销户信用卡最近6个月平均使用额度/未销户信用卡授信总额2)未销户信用卡已使用率=未销户信用卡已用额度/未销户信用卡授信总额2
String变量转换为数值型
1)性别:男=0;女=1;缺失=-1;2)最高学历:硕士及以上=5;本科=4;大专=3;高中=2;初中及以下=1;缺失=-1;3)婚姻状况已婚已育=5;已婚未育=4;离异=3;未婚=2;其他=1;缺失=-1;4)现住房情况多套自有=11;自有=10;小产权=9;宅基地房=8;共同拥有或与父母同住=7;与父母同住=6;租借或公司所有=5;租房=4;自购现无贷款=3;自购现有贷款=2;其他=1;缺失=-15)单位职务高层领导=3;中层领导=2;一般员工=1;缺失=-1;6)单位性质国有企业=4;政府机关=3;微型企业=2;民营企业=1;缺失=-1;7)手机号码是否一致一致=1;不一致=0;缺失=-1;8)坏客户标签坏客户=1;好客户=03
缺失值处理1)变量初分类:各变量元素个数检查a)当变量元素数值个数=1,表示为常量;删除该变量;b)当变量元素为数值且剔除缺失类型后,元素类型>=10;归为连续型变量;c)其他变量归类为类别型变量;2)变量缺失值处理a)对连续型变量:,删除变量;其他变量中缺失值采用-999999特殊处理,单独归为一类;b)随机插值法补充缺失值;二、训练集数据分箱1、类别型变量分箱方法根据数据预处理中得到的类别变量,1)如果类别变量元素类型中有坏客户率相同的组,如果元素类别大于2,合并元素
2)如果类别变量元素中最小箱占比小于总样本比例2%,根据其坏客户率,寻找坏客户率最相近的组,进行合并,直到最小箱占比大于总样本