TeradataTMWarehouseMinerTrainingWorkshop案例-1客户流失预测分析CMCCHQZhangLeiSunstone.Zhang@TERADATA-NCR.COM2>10/21/24•为什么进行客户流失预测?>移动服务的竞争进入白热化状态>月平均流失率6.5%(即随机抽样10000人中只能找到650个真正有流失倾向的客户)•月租型,流失预测模型结果>找出流失倾向最高的客户,–前10000人名单中,约8000人(80%)下个月会流失>找出导致客户流失的原因以辅助设计和执行客户挽留的行销活动。数据挖掘自动化机制更有效地利用挖掘的结果专题概要3>10/21/24预测性模型响应模型自动化分段描述性模型根据业务目标对对象属性的初步划分年龄分组;商业用户/个人用户;客户价值根据业务目标对对象属性的描述保有期(与客户价值有关);信用评分根据相关属性将对象划分到已定类别,以便针对性对待流失倾向评分使用量预测现实模拟以改善预测能力、可控性和实施效果购买倾向评分挖掘结果的发布:调度执行收集响应监控模型性能记录结果数据仓库分析模型的种类4>10/21/24数据仓库•PartlyadaptedfromFayyadU.M.,Piatetsky-Shapiro,P.Smith(1995),‘FromKnowledgeDiscoverytoDataMining:AnOverview’inAdvancedKnowledgeDiscoveryandDataMining.选择抽样模型评估验证建模数据探索数据转换数据清洗预处理确定&理解业务问题数据的后续处理数据的后续处理知识知识预备建模数据挖掘方法论5>10/21/24在这个数据挖掘的初始阶段,需明确阐述项目目标和客户业务需求。基于客户响应(如客户流失或产品购买趋势)特性,可以从概念上定义响应变量,与待选的预测变量没有直接的派生关系〈直接的派生关系意指响应变量可由一或多个预测变量直接计算出来〉。最终,为了这些目标可以必要地调整项目计划进程。包括明确业务目标定义响应变量项目计划必要的调整业务问题定义6>10/21/24搜寻并检查客户数据,创建一个数据映射概念图,将客户数据与建模相关的各个属性对应起来。数据能被整合到一个适当的程度,省略不适当的记录(如若分析仅针对居民客户,则省略非居民客户)、不完整的数据记录、训练数据、试验数据等等。包括:数据来源数据映射准备数据评估数据的必要聚合数据抽样选取和抽样7>10/21/24核查目前的数据源,探索在每个待选的预测变量和响应变量之间是否存在关系。数值分析是全面理解数据的第一步,随之进行的统计分析便于更好地了解有关数据的分布。包括:数据质量检查数据的必要整理通过图形化呈现工具和其他的统计方法理解数据分析待选预测变量和响应变量之间的关系数据转换以辅助数据的分析数据派生为建立模型做准备整理和呈现数据探索的发现探索型数据分析8>10/21/24建立并确认分析模型,尝试不同的建模技术或结合不同数据集,并比较不同模型的性能,选出最好的。包括:为模型的训练和验证准备数据集在模型的建立中使用适当的建模技术针对不同的建模技术测试模型性能必要地精炼分析模型和主题专家一起检验分析模型记录分析模型和结果建模9>10/21/24用模型的结果来协助业务开展、战略设计和战术实施。收集结果进行反馈,为模型的退化进行侦测,更进一步改善模型性能。实施10>10/21/24数据仓库数据采集数据衍生1建立预测模型定义和识别有意义的数据项评分结果监测结果多维分析/报表抽取样本测试模型模型打分提取全部资料23,546789数据仓库数据采集数据衍生1建立预测模型定义和识别有意义的数据项评分结果监测结果多维分析/报表抽取样本测试模型模型打分提取全部资料23,546789具体实施过程11>10/21/24•以号码为单位>用户在网时间至少3个月>分析流失前6个月的数据以了解可能流失原因•正常用户>状态为’正常’或‘停话’或‘强开’>若状态为停话,停话原因属于自愿停话:报停双停报停单停报停完全挂失双停挂失单停挂失完全–若状态为停话,停话原因属于非自愿停话:冒高双停冒高单停欠停双停欠停单停强关双停强关单停强关完全预拆–最近停话期间少于3个月–且6个月內至少有一次缴费记录•流失客户>状态为’预销’或‘预拆’(一个月以上)客户流失的定义12>10/21/24市场计划市场调查新用户计费网络销售网络合同/买卡...