社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

知乎大神用Python爬取高颜值美女(爬虫+人脸检测+颜值检测)

python • 3 年前 • 421 次点击  

1 数据源

知乎话题『美女』下所有问题中回答所出现的图片

2 抓取工具

Python 3,并使用第三方库 Requests、lxml、AipFace,代码共 100 + 行

3 必要环境

  • Mac / Linux / Windows (Linux 没测过,理论上可以。Windows 之前较多反应出现异常,后查是 windows 对本地文件名中的字符做了限制,已使用正则过滤)

  • 无需登录知乎(即无需提供知乎帐号密码)

  • 人脸检测服务需要一个百度云帐号(即百度网盘 / 贴吧帐号)

4 人脸检测库

AipFace,由百度云 AI 开放平台提供,是一个可以进行人脸检测的 Python SDK。可以直接通过 HTTP 访问,免费使用。

5 检测过滤条件

  • 过滤所有未出现人脸图片(比如风景图、未露脸身材照等)

  • 过滤所有非女性(在抓取中,发现知乎男性图片基本是明星,故不考虑;存在 AipFace 性别识别不准的情况)

  • 过滤所有非真实人物,比如动漫人物 (AipFace Human 置信度小于 0.6)

  • 过滤所有颜值评分较低图片(AipFace beauty 属性小于 45,为了节省存储空间;再次声明,AipFace 评分无任何客观性)

6 实现逻辑

  • 通过 Requests 发起 HTTP 请求,获取『美女』下的部分讨论列表

  • 通过 lxml 解析抓取到的每个讨论中 HTML,获取其中所有的 img 标签相应的 src 属性

  • 通过 Requests 发起 HTTP 请求,下载 src 属性指向图片(不考虑动图)

  • 通过 AipFace 请求对图片进行人脸检测

  • 判断是否检测到人脸,并使用 『4 检测过滤条件』过滤

  • 将过滤后的图片持久化到本地文件系统,文件名为 颜值 + 作者 + 问题名 + 序号

  • 返回第一步,继续

7 抓取结果

直接存放在文件夹中(angelababy 实力出境)。另外说句,目前抓下来的图片,除 baby 外,88 分是最高分。个人对其中的排序表示反对,老婆竟然不是最高分




代码

9 运行准备

  • 安装 Python 3,Download Python

  • 安装 requests、lxml、baidu-aip 库,都可以通过 pip 安装,一行命令

  • 申请百度云检测服务,免费。人脸识别-百度AI

*声明:本文于网络整理,版权归原作者所有,如来源信息有误或侵犯权益,请联系我们删除或授权事宜。

觉得不错,点个“在看”然后转发出去


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/105505
 
421 次点击