电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

大数据风控建模标准流程

大数据风控建模标准流程_第1页
1/2
大数据风控建模标准流程_第2页
2/2
大数据风控建模标准流程 一、风控建模标准过程 (一)数据采集汇总 1、以客户为维度组织搜集信息(人口属性、交易信息、交易渠道、风险评估、产品偏好、经营信息) 2、评估数据真实性和质量,数据质量好的变量进入后续步骤 (二)模型设计 1、时间窗和好坏客户定义 时间窗:根据猎取数据的覆盖周期,将数据分为用来建模的观察期数据,和后面用来验证表现的表现期数据; 好坏客户定义:分析客户滚动和迁移率,来定义什么程度逾期的为“坏客户”,例如定义 m3 为坏客户就是定义逾期 3 个月的才是坏客户; 2、样本集切分和不平衡样本处理 样本集切分:切分为训练集和测试集,一般 7/3 或 8/2 比例; 不平衡样本:最理想样本为好坏各 50%,实际拿到的样本一般坏客户占比过低,实行过采样或欠采样方法来调节坏样本浓度。 3、模型选择 评分卡模型以逻辑回归为主。 (三)数据预处理及变量特征分析 1、变量异常值、缺失值处理:使用均值、众数等来平滑异常值,来填补缺失,缺失率过高的变量直接丢弃; 2、变量描述性统计:看各个变量的集中或离散程度,看变量的分布是否对样本好坏有线性单调的相关性趋势; (四)变量筛选 1、变量分箱:变量取值归入有限个分组中,一般 5 个左右的分箱数量,来参加后面的算法模型计算。分箱的原则是使得各箱内部尽量内聚,即合并为一箱的各组坏样本率接近; 使得相邻分箱的坏样本率呈现单调趋势。从方法上一版实行先机器分箱,后人工微调。 2、定量计算变量对于识别坏样本的贡献度(woe 和 iv) (1)woe 是统计一个变量的各分箱区间之间的好占总好比值坏占总坏之比,不同分箱之间差异明显且比例成单调趋势,说明分箱的区分度好; (2)iv 是在 woe 基础上进一步加权计算这个变量整体上对于区分好坏样本的识别度,也就是变量影响因子。数越大说明用这个变量进行区分的效果越好,但 iv 值过大容易引起模型过拟合,即模型过于依赖单一变量,造成使用过程中平衡性健壮性不好; 3、计算变量之间的相关性或多重共线性,相关性高于甚至的两个变量里,就要舍弃一个,留下 iv 值较高的那个。例如“近一个月查询次数”、“近三个月查询次数”、“近六个月查询次数”这三个变量显然明显互相相关度高,只保留其中一个变量进入模型即可。 (五)变量入模计算 1、以最终选定的若干变量,进入回归模型算法,机器自动计算 其中每一个 x 就是一种变量,这个计算就是为了算出每种变量的...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

大数据风控建模标准流程

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部