Chapter 2 使用决策树的预测建模 2
1 问题和数据探索
2 建模问题和数据难点
3 生成和解释决策树
1 问题和数据探索 内容: 问题和数据 初步数据探索 问题和数据 a
预测建模问题 一家金融服务公司为其客户提供房屋净值信贷额度
该公司曾把该项贷款扩展给了数千客户,其中的许多接收者(大约20%)有贷款欺诈行为
该公司希望使用地理信息、人口信息、和经济状况信息变量建立一个模型预测一个申请人将来会不会欺诈
输入数据源 在对数据进行了分析之后,该公司选择了12个预测变量来建立每一个申请人是否欺诈的模型
输出变量(或目标)变量(BAD)表示申请人在房屋净值信贷中是否有欺诈活动
这些变量及其模型角色、测量水平、变量描述列表如下
1 SAMPSIO
HMEQ 数据集合的变量 Name Model Role Measurement Level Description BAD Target Binary 1=defau lted on loan, 0=paid back loan REASON Inpu t Binary HomeImp=home improv e