社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

京东JData算法大赛-高潜用户购买意向预测(github源码)

大数据挖掘DT数据分析 • 7 年前 • 1483 次点击  

 向AI转型的程序员都关注了这个号👇👇👇


大数据挖掘DT数据分析  公众号: datadw


github地址:

在公众号 datadw 里 回复 京东   即可获取。


这是一位热心的参赛者提供的一份入门程序,涵盖了数据清洗、数据(统计)分析、特征抽取、搭建模型、模型评估,这些机器学习通用的完整流程,对于初学者来说可以作为参考。


    上面的连接中有相关的说明,如:

data_cleaning.ipynb       数据清洗
data_analysis.ipynb         数据分析
exlpore_potential_user.ipynb 探索高潜用户行为


其他都是.py的python文件,无需额外说明,上面这几个.ipynb是可导入jupyter notebook的文件,如果没有安装的话需要先安装jupyter notebook,然后upload上面几个文件即可。



一 基础数据介绍:

官网上其实已经有了描述,这里为了方便查看,再次列出:

1. 用户数据 - JData_User.csv
 user_id 用户ID  脱敏
 age 年龄段  -1表示未知
 sex 性别  0表示男,1表示女,2表示保密
 user_lv_cd 用户等级有顺序的级别枚举,越高级别数字越大
 user_reg_tm 用户注册日期粒度到天

 2. 商品数据 - JData_Product.csv
 sku_id 商品编号  脱敏
 a1 属性1  枚举,-1表示未知
 a2 属性2  枚举,-1表示未知
 a3 属性3  枚举,-1表示未知
 cate 品类ID  脱敏
 brand 品牌ID  脱敏

3. 评价数据 - JData_Comment.csv
 dt 截止到时间  粒度到天
 sku_id 商品编号  脱敏
 comment_num 累计评论数分段0表示无评论,1表示有1条评论,
 2表示有2-10条评论,
 3表示有11-50条评论,
 4表示大于50条评论
 has_bad_comment 是否有差评0表示无,1表示有
 bad_comment_rate 差评率差评数占总评论数的比重

4. 行为数据 - JData_Action_201602.csv,JData_Action_201604.csv,JData_Action_201603.csv
 user_id 用户编号  脱敏
 sku_id 商品编号  脱敏
 time 行为时间   
 model_id 点击模块编号,如果是点击脱敏
 type 1.浏览(指浏览商品详情页); 2.加入购物车;3.购物车删除;4.下单;5.关注;6.点击
 
 cate 品类ID  脱敏
 brand 品牌ID  脱敏


二 任务描述:
参赛者需要使用京东多个品类下商品的历史销售数据,构建算法模型,预测用户在未来5天内,对某个目标品类下商品的购买意向。对于训练集中出现的每一个用户,参赛者的模型需要预测该用户在未来5天内是否购买目标品类下的商品以及所购买商品的SKU_ID。评测算法将针对参赛者提交的预测结果,计算加权得分。


三 程序详解

这里对这位作者的程序进行一下简单解析,可供初学者参考,因为是自己的理解,可能有不当之处,欢迎大家批评指出。


3.1 数据清洗 data_cleaning.ipynb

数据与程序在相同目录,/data文件夹下,如下图,比大赛提供的数据多了JData_Action_201603_extra.csv【作者在git中已经说明,这个是前面一版的数据,从代码中删除这个文件相关的代码即可】,JData_User_New.csv,user_table.csv,item_table.csv四个文件,这是其他程序生成的。其中,item_table.csv由create_item_table.py生成,user_table.csv由create_user_table.py生成;JData_User_New.csv由explore_data.py生成。


文件执行顺序:

1、 生成缺失的三个文件,这一步的目的,是把文件中的数据按照商品和用户两个维度进行聚合


执行顺序:

python create_item_table.py


python explore_data.py 

python create_user_table.py

执行时间较长,但完成后,可以在data/目录下看到新生成的三个文件,注意检验数据条数是否一致


2、缺失文件生成完成后,就可以进行数据清洗和分析了

(2-1)数据分析

进入到我们下载上面程序的目录,在这个目录下启动jupyter notebook:

直接点击data_analysis.ipynb查看即可,这里是在notebook中通过pandas,numpy和matplotlib查看数据的统计特征,进行初步分析


(2-2)数据清洗

查看data_cleaning.ipynb,这里面有原作者的详细描述,介绍了一种数据清洗方法,大家可以在这里改为自己的清洗策略


3、高潜用户行为分析,查看explore_potential_user.ipynb即可,这里是原作者对高潜用户的一些定义,大家可以根据自己的理解修改或调整阈值


4、挖掘过程和结果:

python potential_user.py


简要说明:

find_buy_user函数,查找2,3,4月有购买行为的用户记录(type=4,已去重),保留"user_id", "sku_id"字段,含义分别为用户id,商品id,结果数据存储到了buy_user_list.csv

find_potential_user,查找潜在用户,使用策略为:先读取buy_user_list.csv,取出有购买行为的用户;然后通过ui_record_in_batch_data方法,拿到用户的行为序列(不只是购买行为);more_than_a_day方法:最后购买日期:行为序列中,购买类型行为的最后日期(last_buy_day);最早行为日期(earliest_behave_day):对某商品有浏览等行为的最早日期,这里对用户的意向打了一个标签,当last_buy_day>earliest_behave_day时,则标记potential_flag 为1;否则标记为0


意义:这里标签的定义方式为,如果用户对某个商品,有从浏览,到最终购买的行为链条,则可以说明用户对该商品有购买意向;否则说明没有。


当然,上述标签只是原作者的一种定义方式,可能并不符合我们的设想,我们可以针对这里进行改进。例如,多次浏览同一商品,有关注,或加入购物车行为都可以认为是有意向,只是强弱不同,这样,可以构造特征集合,并使用逻辑回归进行分类。


将记录自己的策略更新过程。


一 数据特征统计分析

几个主要的点:

(1)各类行为与转化(购买)之间的关联关系,包括浏览、加入购物车、关注

(2)已购商品的复购率

(3)性别与商品的关联程度


二 特征提取

包括用户特征,商品特征,和用户历史行为特征


三 模型构建

1、商品候选集确认 - 用户&相关商品,不应该是整个商品集;可能使用到关联分析,协同过滤

2、模型选择 - 分类

3、代码编写与参数调整

4、效果评估与迭代优化


以下分别按照上面描述进行整理。


二 操作

1、用户id数据预处理 

用户行为数据,提供的JData_Action_201602.csv 中的user_id是浮点型,都带了个.0,直接跟JData_User.csv关联稍有麻烦,当然主要是看着不爽,所以先把几个action文件的数据规范化

(1)格式化user_id 【使用awk 命令,gsub函数】


awk '$0 ~ /.0,/ {gsub(".0,", ",", $0); print}' JData_Action_201602.csv > Format_JData_Action_201602.csv


(2)用户行为合并

原始数据中,用户的行为是每行一条数据,无法形成行为序列,所以这里加一步中间数据的处理,便于分析用户的商品浏览到购买的全流程行为。给的文件字段说明,是'user_id','sku_id','time','model_id','type','cate','brand' 七个字段,但解析的过程中发现,有不少记录按照逗号分割后,是6个,例如:


266079.0,138778,2016-01-31 23:59:02,,1,8,403

266079.0,138778,2016-01-31 23:59:03,0,6,8,403

200719.0,61226,2016-01-31 23:59:07,,1,8,30



追查后,发现是第一步处理时导致部分空值丢失。。所以重写编写了脚本,这里一并完成user_id的处理在脚本中实现。

(2.1)用户维度聚合

(2.2)用户维度,同一个商品的行为序列再次聚合,一个商品一个元组



(3)正样本提取

先明确一下正负样本的定义:

正样本:有过非购买行为,且有购买行为的用户记录(针对同一商品)

负样本:有过浏览等行为,但最终没有购买行为的用户记录


初步的目标,就是从有非购买行为,且有购买行为的用户中,分析出其中隐藏的规律,并利用这个规律,对其他有行为的用户进行购买行为的预测



上面为热心参赛者的代码和流程。以下将记录自己的策略更新过程。


一 数据特征统计分析

几个主要的点:

(1)各类行为与转化(购买)之间的关联关系,包括浏览、加入购物车、关注

(2)已购商品的复购率

(3)性别与商品的关联程度


二 特征提取

包括用户特征,商品特征,和用户历史行为特征


三 模型构建

1、商品候选集确认 - 用户&相关商品,不应该是整个商品集;可能使用到关联分析,协同过滤

2、模型选择 - 分类

3、代码编写与参数调整

4、效果评估与迭代优化


以下分别按照上面描述进行整理。


二 操作

1、用户id数据预处理 

用户行为数据,提供的JData_Action_201602.csv 中的user_id是浮点型,都带了个.0,直接跟JData_User.csv关联稍有麻烦,当然主要是看着不爽,所以先把几个action文件的数据规范化

(1)格式化user_id 【使用awk 命令,gsub函数】


awk '$0 ~ /.0,/ {gsub(".0,", ",", $0); print}' JData_Action_201602.csv > Format_JData_Action_201602.csv

(2)用户行为合并

原始数据中,用户的行为是每行一条数据,无法形成行为序列,所以这里加一步中间数据的处理,便于分析用户的商品浏览到购买的全流程行为。给的文件字段说明,是'user_id','sku_id','time','model_id','type','cate','brand' 七个字段,但解析的过程中发现,有不少记录按照逗号分割后,是6个,例如:


266079.0,138778,2016-01-31 23:59:02,,1,8,403

266079.0,138778,2016-01-31 23:59:03,0,6,8,403

200719.0,61226,2016-01-31 23:59:07,,1,8,30


追查后,发现是第一步处理时导致部分空值丢失。。所以重写编写了脚本,这里一并完成user_id的处理在脚本中实现。

(2.1)用户维度聚合

(2.2)用户维度,同一个商品的行为序列再次聚合,一个商品一个元组



(3)正样本提取

先明确一下正负样本的定义:

正样本:有过非购买行为,且有购买行为的用户记录(针对同一商品)

负样本:有过浏览等行为,但最终没有购买行为的用户记录


初步的目标,就是从有非购买行为,且有购买行为的用户中,分析出其中隐藏的规律,并利用这个规律,对其他有行为的用户进行购买行为的预测。


人工智能大数据与深度学习

搜索添加微信公众号:weic2c

长按图片,识别二维码,点关注



大数据挖掘DT数据分析

搜索添加微信公众号:datadw


教你机器学习,教你数据挖掘

长按图片,识别二维码,点关注



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/IoetbbXALl
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/4397
 
1483 次点击