电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据挖掘应用实例银行客户数据分析VIP免费

数据挖掘应用实例银行客户数据分析_第1页
1/24
数据挖掘应用实例银行客户数据分析_第2页
2/24
数据挖掘应用实例银行客户数据分析_第3页
3/24
1银行客户数据分析2007-09-012背景数据客户群服务盈利•商业银行拥有大量的个人客户交易数据、个人客户服务数据和个人客户基本资料数据。在这些海量数据中,隐藏着大量的有价值的客户信息。运用数据挖掘中的聚类分析技术可以从这些数据集中提取客户的分类知识。聚类分析技术可以将性质、特征近似的数据对象归属在相同的群集中。商业银行可以利用此技术分辨出能有效为之服务的最有价值的客户,为他们提供更为个性化的服务,从而影响相关的客户行为并最终达到提高盈利的目的。3数据集•客户数据集包含10,000条客户数据•包含有31个特征(属性),分别为:•BankNo(银行代码,其值有:004,024,077等)•Accountnum(账户代码)•ShortName(客户名字)•FirstContactDate(第一次接触日期)•accountopendate(账户开户日期)•accountbalance(账户当前余额)•accountlowbalance(账户曾经最低余额)•accounthighbalance(账户曾经最高余额)•balancecategory(余额类型)•StatementLowBalance(最低交易账目,有正有负)4数据集(属性)•StatementHighBalance(最高交易账目)•StatementAggregateDebitBalance(聚集透支账目)•StatementAggregateDebitDay(透支账目的天数)•StatementAggregateCreditBalance(聚集存款账目)•StatementAggregateCreditDay(存款账目的开数)•ReturnCheckCount(退回支票的次数)•Status(客户状态)•AuditGranding(授权级别,越高则风险越低)•SalaryBeforeLastMonth(上一个月之前自动付款的账目)•SalarylastMonth(上一个月自动付款的账目)•SalarythisMonth(这一个月自动付款的账目)•CountofCreditthisMonth(这个月存款的次数)5数据集(属性)•CountofDebitthisMonth(这个月取款的次数)•CountofOD(透支的次数)•AmountofDepositthisMonth(本月存款的账目)•AmountofWithdrawthisMonth(本月取款的账目)•LastTransactionDate(上一次交易的日期)•CountryCode(客户所属的国家)•Birthday(生日)•Sex(性别)•••6数据预处理•我们选用Weka数据挖掘工具来对客户的账户数据进行分析,因此所有的原始数据都必须转换成能被Weka处理的数据集格式。•原始数据集的特征主要有四种类型的,分别是:数值型(numeric)、标称型(nominal)、日期型(date)和字符串型(string)。•对于缺失的属性值,因为Weka中的算法能自动处理属性值缺失的情况,所以按Weka数据集的格式要求用“?”表示。7数据预处理(规格化)•数值型特征:采用如下公式规格化到[0,1]区间•标称型特征、日期型特征和字符串型特征保持不变minmaxmin'xxxxx8聚类分析•目标•我们的目的是对客户进行分群,从而使银行可以对不同群体的客户提供不同的服务。因此聚类分析是对客户进行自动分群的有效方法。•方法•k-means算法•选取的特征•从31个原始属性值中选取23个属性用作聚类(都是数值型或标称型的)•聚类参数•在经过规格化处理后的数据集中,用k-means算法在选定的23个属性上进行聚类,设定聚类数为10.9各聚类大小•各聚类所包含的客户数量如下表聚类客户数量聚类1145聚类269聚类3133聚类46183聚类51985聚类6213聚类746聚类8446聚类9413聚类10368表110对聚类大小的分析由表1可知,各聚类有大有小,且大小悬殊,但也合乎客户关系处理的目的。客户关系管理的往往是找出一小部分的特殊客户(占20%左右)来进行特别地对待。在上表所示的10个聚类中,除去最大的聚类4后其余9个聚类的客户数达3818人,占总客户量的38.18%;除去最大的两个聚类(聚类4和聚类5)后其余8个聚类的客户数达1833人,占总客户量的18.33%.大聚类可以再继续细分(作为一个数据集再继续进行聚类操作,或直接提高聚类个数)11对各聚类结果的处理•聚类后的各聚类结果的数据是规格化处理后的数据的结果,我们要直观地分析各聚类的特点,必须把规格化的数据还原为原始数据。例如,最小值为-10,000,最大值为1,000,000的当前账户余额规格化为[0,1]后就难以理解各账户间存在的巨大差距,只有把它还原为原始的[-10000,1000000]才能使人直观地理解其存在的差距。•把各聚类的数据集还原为原始数据后,再计算各特征的均值和标准差(数值型的特征);或者...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

数据挖掘应用实例银行客户数据分析

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部