小斯(成文辉):wenhui.cwh@alibaba-inc.com目录写在前面..................................................................................................................................2赛题介绍..................................................................................................................................2赛题FAQ..................................................................................................................................3数据挖掘初阶.........................................................................................................................4问题解析..........................................................................................................................4训练集和测试集的划分与构建.......................................................................................4数据清洗..........................................................................................................................5领域知识—>特征工程..................................................................................................6我的特征工程..................................................................................................................8缺失值填充.....................................................................................................................11数据分布不一致问题.....................................................................................................11单模型的调优................................................................................................................12正负比例失衡问题.........................................................................................................12模型选择与融合............................................................................................................12比赛Top10的答辩PPT等学习资料.............................................................................13数据挖掘进阶.......................................................................................................................13附言........................................................................................................................................14写在前面之前写过关于《天猫推荐算法大赛》的总结,但那并不适合给纯新手看,这里再针对性地进行整理,以方便新手理解。仍然以该赛题为例,讲解一个数据挖掘比赛的具体做法,层层深入。本次讲解假定读者对机器学习和数据挖掘有一定的了解,懂基础知识,比如《数据挖掘导论》、《机器学习实战》等,针对简单的数据集做过实验,推荐《机器学习那些事》。文章外链多为引申,如精力有限,先看本文。1小斯(成文辉):wenhui.cwh@alibaba-inc.com赛题介绍本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。我们会开放如下数据类型:字段字段说明提取说明user_id用户标记抽样&字段加密Time行为时间精度到天级别&隐藏年份action_type用户对品牌的行为类型包括点击、购买、加入购物车、收藏4种行为(点击:0购买:1收藏:2购物车:3)brand_id品牌数字ID抽样&字段加密用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。——下图是部分样例数据截图和season1的数据集。赛题FAQ1.抽样方式我们在做训练数据的时候,是首先从天猫全量用户中定了一个抽样比例,确定训练用户集Userset。同样...