社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

利用python爬虫可视化分析当当网的图书数据!

python • 6 年前 • 668 次点击  


导语

这周末就分享个小爬虫吧。利用Python爬取并简单地可视化分析当当网的图书数据。

让我们愉快地开始吧~本文相关源代码加群:696541369获取,还可获取更多python学习资料!



开发工具

Python版本:3.6.4

相关模块:

requests模块;

bs4模块;

wordcloud模块;

jieba模块;

pillow模块;

pyecharts模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

任务:

根据给定的关键字,爬取与该关键字相关的所有图书数据。

实现:

以关键字为python为例,我们要爬取的图书数据的网页页面是这样子的:


其中,网页的链接格式为:

http://search.dangdang.com/?key={keyword}&act=input&page_index={page_index}'

因此请求所有与关键词相关的链接:


然后利用BeautifulSoup分别解析返回的网页数据,提取我们自己需要的数据即可:


运行效果:

在cmd窗口运行"ddSpider.py"文件即可。

效果如下:


数据分析

好的,现在就简单地可视化分析一波我们爬取到的61页python相关的图书数据吧~

让我们先看看图书的价格分布吧:


有没有人想知道最贵的一本python相关的书的单价是多少呀?答案是:28390RMB

书名是:

Python in Computers Programming

QAQ买不起买不起。

再来看看图书的评分分布呗:


看来大多数python相关的图书都没人买过诶~大概是买不起吧T_T。

再来评论数量?


那么评论数量TOP6的图书有哪些呢?


老规矩,画两个词云作结吧,把所有python相关的图书的简介做成词云如何?


番外篇

这篇文章真的结束了吗?

这篇文章真的结束了吗?

这篇文章真的结束了吗?

难道没有人好奇我文章的封面怎么做的吗?

好吧,我写文章的时候没人看到,所以即使真的有人好奇也没法说?

其实很简单,就是下了961张python相关图书的图书封面,然后拼在一起了。

源代码如下:


效果如下:


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/29415
 
668 次点击