数据挖掘工作咋开展
记住这六步::定义商业问题、数据准备、数据理解、建立模型、评估模型、应用/部署模型 快要过年了,年底却不亦乐呼,就写写我对数据挖掘过程的体会吧
就是商业问题的理解了,那么如何更好的理解“老大”提出的商业问题困惑呢
我觉得思维导图倒是个不错的选择,当然自己要想更好的理解“老大”的意思还需要进一步的沟通,商业问题的理解关系到这个挖掘项目的价值,甚至成败,所以在这块大家要显得“外向”一些,多交流、多沟通、多了解这个商业问题背后的东东; step2
接下来就是需要提取的字段,也就是数据挖掘的宽表,这点就要和企业的 DBA 人员多多交流,看数据库中各个维度的表格都有什么字段,主要关联的主键有那些,那么如何选取字段呢
这就需要自己把自己与“老大”共同讨论的思维导图拿出来看看,这样就有提取那些字段的感觉了,这部分大多数的提取是自己对商业问题的感觉或者一些前辈的经验; Step3 数据的 ETL,这部分一般的时间占数据挖掘项目的 70%左右,为什么数据的 ETL 如此重要呢
万丈高楼平地起,如果连地基都是“豆腐渣工程”的话,那么再华丽的楼房也没人愿意掏腰包;嘿嘿,开个玩笑;数据的 ETL 主要是一些异常值、空值(miss值)、错误数值的处理,这部分一般需要根据数据自身的分布、简单的统计知识、该字段体现的业务特点、自己的经验进行的,也就是这一部分的处理主要是统计知识+项目经验+业务特点; Step4 建立模型所需要的变量如何选
当然目标变量(Y)一般都是事前设定好的,那么X 如何找呢
大多数都是应用相关分析、特征选择、描述性的统计图表(分箱图、散点图等),这里我只想说一句算法是死的,有时候我们根据算法得出来的X 对 Y 没有影响,但在实际的业务中影响却很大,所以大家不要过于依赖算法、工具,我曾经因为这点,被人批了,555~ ~ ~ ~ ~ Step5 建