大数据风控建模标准流程

下载本文档

阅读 64
下载 7
格式 doc
大小 14.5 KB
约2页
2025-09-03 发布于天津市
收藏
评论
点赞(0)
海报
举报

1/2页

2/2页

在线预览已结束，请下载后查看完整版，加入VIP享文档下载特权

大数据风控建模标准流程一、风控建模标准过程（一）数据采集汇总 1、以客户为维度组织搜集信息（人口属性、交易信息、交易渠道、风险评估、产品偏好、经营信息） 2、评估数据真实性和质量，数据质量好的变量进入后续步骤（二）模型设计 1、时间窗和好坏客户定义时间窗：根据猎取数据的覆盖周期，将数据分为用来建模的观察期数据，和后面用来验证表现的表现期数据；好坏客户定义：分析客户滚动和迁移率，来定义什么程度逾期的为“坏客户”，例如定义 m3 为坏客户就是定义逾期 3 个月的才是坏客户； 2、样本集切分和不平衡样本处理样本集切分：切分为训练集和测试集，一般 7/3 或 8/2 比例；不平衡样本：最理想样本为好坏各 50%，实际拿到的样本一般坏客户占比过低，实行过采样或欠采样方法来调节坏样本浓度。 3、模型选择评分卡模型以逻辑回归为主。（三）数据预处理及变量特征分析 1、变量异常值、缺失值处理：使用均值、众数等来平滑异常值，来填补缺失，缺失率过高的变量直接丢弃； 2、变量描述性统计：看各个变量的集中或离散程度，看变量的分布是否对样本好坏有线性单调的相关性趋势；（四）变量筛选 1、变量分箱：变量取值归入有限个分组中，一般 5 个左右的分箱数量，来参加后面的算法模型计算。分箱的原则是使得各箱内部尽量内聚，即合并为一箱的各组坏样本率接近；使得相邻分箱的坏样本率呈现单调趋势。从方法上一版实行先机器分箱，后人工微调。 2、定量计算变量对于识别坏样本的贡献度（woe 和 iv）（1）woe 是统计一个变量的各分箱区间之间的好占总好比值坏占总坏之比，不同分箱之间差异明显且比例成单调趋势，说明分箱的区分度好；（2）iv 是在 woe 基础上进一步加权计算这个变量整体上对于区分好坏样本的识别度，也就是变量影响因子。数越大说明用这个变量进行区分的效果越好，但 iv 值过大容易引起模型过拟合，即模型过于依赖单一变量，造成使用过程中平衡性健壮性不好； 3、计算变量之间的相关性或多重共线性，相关性高于甚至的两个变量里，就要舍弃一个，留下 iv 值较高的那个。例如“近一个月查询次数”、“近三个月查询次数”、“近六个月查询次数”这三个变量显然明显互相相关度高，只保留其中一个变量进入模型即可。（五）变量入模计算 1、以最终选定的若干变量，进入回归模型算法，机器自动计算其中每一个 x 就是一种变量，这个计算就是为了算出每种变量的...

1、当您付费下载文档后，您只拥有了使用权限，并不意味着购买了版权，文档只能用于自身使用，不得用于其他商业用途（如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利）。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。
3、如文档内容存在违规，或者侵犯商业秘密、侵犯著作权等，请点击“违规举报”。

碎片内容