浙江工商大学计算机与信息工程学院 《Python 程序设计与实践》大作业报告 专 业: 计科 班 级: 1404 学 号:**********、**********、********** 姓 名: 陆阳,孙勇,裘昇明 指导教师: ** 2015 年 6 月 28 日 题目介绍: 在真实的业务场景下,我们往往需要对所有商品的一个子集构建个性化推荐模型。在完成这件任务的过程中,我们不仅需要利用用户在这个商品子集上的行为数据,往往还需要利用更丰富的用户行为数据。定义如下的符号: U— — 用户集合 I— — 商品全集 P— — 商品子集,P ⊆ I D— — 用户对商品全集的行为数据集合 那么我们的目标是利用 D 来构造 U 中用户对P 中商品的推荐模型。 数据说明: 竞赛数据包含两个部分。第一部分是用户在商品全集上的移动端行为数据(D),表名为 tianchi_mobile_recommend_train_user,包含如下字段: 字 段 字 段 说 明 提 取 说 明 user_id 用 户 标 识 抽 样 &字 段 脱 敏 item_id 商 品 标 识 字 段 脱 敏 behavior_type 用 户 对 商 品 的 行 为 类 型 包 括 浏 览 、收藏、加购物车、购买,对 应取值分别是 1、2、3、4。 user_geohash 用 户 位置的 空间标 识 ,可以为 空 由经纬度通过保密的 算法生成 item_category 商 品 分类 标 识 字 段 脱 敏 time 行 为 时间 精确到小时级别 第二个部分是商品子集(P),表名为tianchi_mobile_recommend_train_item,包含如下字段: 字 段 字 段 说 明 提 取 说 明 item_id 商 品 标 识 抽 样 &字 段 脱 敏 item_ geohash 商 品 位 置 的 空 间 标 识 , 可 以 为空 由经纬度通过保密的 算法生成 item_category 商 品 分类标 识 字 段 脱 敏 训练数据包含了抽样出来的一定量用户在一个月时间(11.18~12.18)之内的移动端行为数据(D),评分数据是这些用户在这个一个月之后的一天(12.19)对商品子集(P)的购买数据。参赛者要使用训练数据建立推荐模型,并输出用户在接下来一天对商品子集购买行为的预测结果。 大作业报告内容包括以下几个部分 1、数据分组统计: 可统计有多少用户、商品、商品类别等信息,甚至每天各种行为的统计数。如图: 还有,在给出的用户行为数据中,有些用户在整个11-18 日至12-18 日对商品有浏览行为记录,但是从未产生过购买行为,这些用...