社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

用Python爬取淘宝4403条大裤衩数据进行分析,找到可以入手的那一条

大数据文摘 • 1 年前 • 357 次点击  

大数据文摘授权转载自菜J学Python
作者:J哥

炎炎夏日,长裤已难以满足广大男生的需求,为了在搬砖和摆摊的过程中增添一丝舒适感,他们开始寻找一种神奇的存在——大裤衩。J哥在种菜的这些日子里也日益感受到大裤衩的重要性,于是,默默打开了淘宝并搜索了大裤衩,但翻了半天也不知道买啥。

无比懊恼的J哥扔掉了手机,打开电脑并爬取了淘宝4403条大裤衩数据,然后进行了可视化分析,并最终找到一条可以入手的大裤衩。本文主要尝试解决以下几个问题:

1.国内哪些地方的大裤衩卖的比较好?
2.大裤衩市场价格是怎样的?
3.哪些店铺大裤衩销量较高?
4.在售的大裤衩具有哪些特点?

数据获取

淘宝网站是一个ajax动态加载的网站,只能通过解析接口或用selenium自动化测试工具去爬取。

本次数据获取采用selenium,由于J哥的谷歌浏览器版本更新较快,导致原来的谷歌驱动失效。于是,我禁用了浏览器自动更新,并下载了对应版本的驱动。

J哥谷歌浏览器版本

浏览器驱动必须与浏览器版本匹配,否则selenium将失效,这里也给出下载链接:
http://chromedriver.storage.googleapis.com/index.html

接着,J哥利用selenium在淘宝网搜索大裤衩,手机扫码登录,获得了大裤衩的商品名称、商品价格、付款人数、店铺名称、发货地址等信息,最终保存为big_pants.xlsx。

 1def main(): 2    browser.get('https://www.taobao.com/') 3    page = search_product(key_word) 4    print(page) 5    get_data() 6    page_num = 1 7    while int(page) != page_num: 8        print("-" * 100) 9        print("正在爬取第{}页大裤衩数据".format(page_num + 1))10        browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word, page_num*44))11        


    
browser.implicitly_wait(10)12        get_data()13        page_num += 114    print("大裤衩数据抓取完成")1516if __name__ == '__main__':17    key_word = "大裤衩 男"18    browser = webdriver.Chrome("./chromedriver")19    main()

数据清洗

短短几分钟就爬下了4403条大裤衩样本数据,为了方便数据分析,还需要对原始数据进行简单清洗。

一.添加列名


二.重复记录处理


三.缺失值处理


四.商品价格字段处理


五.发货地址字段处理


六.付款人数字段处理


七.其他处理


数据可视化

数据清洗干净后,接下来就可以做可视化分析了,本次可视化分析主要用到Python的pyecharts库和BI工具。

我们首先来看点有意思的数据,最贵的大裤衩和最便宜的大裤衩的区别:

最贵的大裤衩

最便宜的大裤衩


对比一下,不难发现这两条大裤衩的区别,一个风度翩翩,一个花里胡哨。作为一名种菜的民工,风度没暖用(主要还是买不起),便宜无好货的认知在开始学种菜的时候就印刻在J哥的脑海里了,于是J哥继续分析。

一、国内哪些地方的大裤衩卖的比较好?


J哥利用省份和付款人数字段数据做了个全国地图,发现福建和浙江这两个地方盛产大裤衩。根据一般的经济学原理,产业集聚更容易带来专业化分工和规模化经营。于是,J哥首先锁定了这两个地方的大裤衩并进一步下钻分析。


在盛产大裤衩的两个省份中,泉州占到了福建大裤衩的44.28%,杭州占到了浙江大裤衩的37.02%。目标进一步缩小,J哥内心无比激动。

二.大裤衩市场价格是怎样的?


要想买到一条合适的大裤衩,不仅需要分析销量因素,咱们还得分析价格因素。由上图可知,80%的大裤衩价格在50元以下,100元以上的大裤衩占比不到2%。可见,大家对大裤衩的心理价位普遍不高。

三.哪些店铺大裤衩销量较高?


从销量较高的淘宝店铺来看,基本都是旗舰店,看来大家对店铺品牌效应关注度较高。J哥也查了下mystery8090,这是一家专注胖男孩的韩流服饰店,市场定位还是不错的,难怪也获得了不错的销量。

五.在售的大裤衩具有哪些特点?


J哥为了了解大裤衩的特点,对商品名称字段做了文本分析,以大树为背景绘制了大裤衩词云图。主要的特点基本上还是看的出来的,大裤衩首先是“短”,其次是“夏”天“男”生必备。词云图里出现了好多个“休”字,J哥查了下原始数据,原来是生成词云的时候把“休闲”二字割裂了。

六.选择合适的大裤衩

J哥根据以上分析,同时查看了相关的宝贝评价、好评率等指标,综合分析后,终于找到了以下大裤衩并入手。J哥不经感慨,再也不怕种菜的时候热出翔了!



租!GPU算力

新上线一批4090/A800/H800/H100


特别适合企业级应用


扫码了解详情☝


点「在看」的人都变好看了哦!
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/167333
 
357 次点击