电脑桌面
添加小米粒文库到电脑桌面
安装后可以在桌面快捷访问

数据挖掘比赛入门_以去年阿里天猫推荐比赛为例VIP免费

数据挖掘比赛入门_以去年阿里天猫推荐比赛为例_第1页
数据挖掘比赛入门_以去年阿里天猫推荐比赛为例_第2页
数据挖掘比赛入门_以去年阿里天猫推荐比赛为例_第3页
小斯(成文辉):wenhui.cwh@alibaba-inc.com目录写在前面..................................................................................................................................2赛题介绍..................................................................................................................................2赛题FAQ..................................................................................................................................3数据挖掘初阶.........................................................................................................................4问题解析..........................................................................................................................4训练集和测试集的划分与构建.......................................................................................4数据清洗..........................................................................................................................5领域知识—>特征工程..................................................................................................6我的特征工程..................................................................................................................8缺失值填充.....................................................................................................................11数据分布不一致问题.....................................................................................................11单模型的调优................................................................................................................12正负比例失衡问题.........................................................................................................12模型选择与融合............................................................................................................12比赛Top10的答辩PPT等学习资料.............................................................................13数据挖掘进阶.......................................................................................................................13附言........................................................................................................................................14写在前面之前写过关于《天猫推荐算法大赛》的总结,但那并不适合给纯新手看,这里再针对性地进行整理,以方便新手理解。仍然以该赛题为例,讲解一个数据挖掘比赛的具体做法,层层深入。本次讲解假定读者对机器学习和数据挖掘有一定的了解,懂基础知识,比如《数据挖掘导论》、《机器学习实战》等,针对简单的数据集做过实验,推荐《机器学习那些事》。文章外链多为引申,如精力有限,先看本文。1小斯(成文辉):wenhui.cwh@alibaba-inc.com赛题介绍本届赛题的任务就是根据用户4个月在天猫的行为日志,建立用户的品牌偏好,并预测他们在将来一个月内对品牌下商品的购买行为。我们会开放如下数据类型:字段字段说明提取说明user_id用户标记抽样&字段加密Time行为时间精度到天级别&隐藏年份action_type用户对品牌的行为类型包括点击、购买、加入购物车、收藏4种行为(点击:0购买:1收藏:2购物车:3)brand_id品牌数字ID抽样&字段加密用户对任意商品的行为都会映射为一行数据。其中所有商品ID都已汇总为商品对应的品牌ID。用户和品牌都分别做了一定程度的数据抽样,且数字ID都做了加密。所有行为的时间都精确到天级别(隐藏年份)。——下图是部分样例数据截图和season1的数据集。赛题FAQ1.抽样方式我们在做训练数据的时候,是首先从天猫全量用户中定了一个抽样比例,确定训练用户集Userset。同样...

1、当您付费下载文档后,您只拥有了使用权限,并不意味着购买了版权,文档只能用于自身使用,不得用于其他商业用途(如 [转卖]进行直接盈利或[编辑后售卖]进行间接盈利)。
2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。
3、如文档内容存在违规,或者侵犯商业秘密、侵犯著作权等,请点击“违规举报”。

碎片内容

确认删除?
VIP
微信客服
  • 扫码咨询
会员Q群
  • 会员专属群点击这里加入QQ群
客服邮箱
回到顶部