实用标准文档大全数据挖掘模型中的IV和WOE详解标签:IVWOE信息价值证据权重数据挖掘模型2016-03-0215:3628747人阅读评论(8)收藏举报分类:数据挖掘模型(7)版权声明:本文为博主原创文章,未经博主允许不得转载
IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量
我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选
比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表
那么我们怎么去挑选入模变量呢
挑选入模变量过程是个比较复杂的过程,需要考虑的因素很多,比如:变量的预测能力,变量之间的相关性,变量的简单性(容易生成和使用),变量的强壮性(不容易被绕过),变量在业务上的可解释性(被挑战时可以解释的通)等等
但是,其中最主要和最直接的衡量标准是变量的预测能力
“变量的预测能力”这个说法很笼统,很主观,非量化,在筛选变量的时候我们总不能说:“我觉得这个变量预测能力很强,所以他要进入模型”吧
我们需要一些具体的量化指标来衡量每自变量的预测能力,并根据这些量化指标的大小,来确定哪些变量进入模型
IV就是这样一种指标,他可以用来衡量自变量的预测能力
类似的指标还有信息增益、基尼系数等等
对IV的直观理解从直观逻辑上大体可以这样理解“用IV去衡量变量预测能力”这件事情:我们假设在一个分类问题中,目标变量的类别有两类:Y1,Y2
对于一个待预测的个体A,要判断A属于Y1还是Y2,我们是需要一定的信息的,假设这个信息总量是I,而这些所需要的信息,就蕴含在所有的自变量C1,C2,C3,⋯⋯,Cn中,那么,对于其中的一个变量Ci来说,其蕴含的信息越多,那么它对于判断A属于Y1还