Py学习  »  Python

聊天没有表情包被嘲讽,用python爬取了十万张表情包

Python绿色通道 • 1 年前 • 185 次点击  

↑ 关注 + 星标 ,每天学Python新技能

后台回复【大礼包】送你Python自学大礼包

来源于网络,侵删

前言

事情要从几天前说起,我有一个朋友,他在和他喜欢的小姐姐聊天时,聊天的气氛一直非常尬,这时他就想发点表情包来缓和一下气氛,但一看自己的表情包收藏都是这样的。。。

。。。这发过去,基本就直接和小姐姐说拜拜了,然后他就向我求救问我有没有表情包,表情包我是没有,但网站有呀,来来,爬虫整起。

分析页面

今天爬取的网站是斗图吧,有一说一表情包是真的多,看这惊人的页数
接下来就该看看怎么拿到表情包图片的url了,首先打开谷歌浏览器,然后点F12进入爬虫快乐模式

然后完成下图的操作,先点击1号箭头,然后再选中一个表情包即可,红色框中就是我们要爬取的对象,其中表情包的src就在里面

现在我们就搞清楚了怎么拿到表情包的url了,就开始写代码了

具体实现

解析页面

获取网页内容

这里就是获取爬取网页的信息

解析网页内容

到现在为止,已经拿到了所有的图片的链接和名字,那么就可以开始下载了

文件下载

多线程下载

因为文件实在有点多,所以最好采用多线程的方式下载,我这里只是给了一个样例,大家按照这个逻辑写一下就好

成果

总共是爬了十万多张表情包,这次咱也是表情包大户了





    


  1. 太好用了,这个更人性化的正则库 -- Humre

  2. 如何快速把你的 Python 代码变为 API

  3. Amazon 4.7分,这本Python入门好书你值得拥有

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/146904
 
185 次点击