社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

淘宝、知乎、豆瓣......18个网站的Python爬虫登录汇总,都在这个开源项目里

开源最前线 • 5 年前 • 459 次点击  

开源最前线(ID:OpenSourceTop) 猿妹 整编

项目地址:https://github.com/CriseLYJ/awesome-python-login-model


如果你从事数据科学领域,那么获取数据对于你来说就不可或缺,网络爬虫这一关你必须得过,而说到爬虫,大多数人想到的就是Python,因为python不仅编写调试方便,而且能够快速入门,最主要的是相关的类库十分丰富


今天,要和大家推荐的这个项目就是和Python编程有关的,这个项目介绍了如何用 Python 登录各大网站,并用简单的爬虫获取一些有用数据,目前该项目已经提供了知乎、B 站、和豆瓣等 18 个网站的登录方法。



模拟登陆基本采用的是直接登录或者使用selenium+webdriver的方式,有的网站直接登录难度很大,比如qq空间,bilibili等如果采用selenium就相对轻松一些。


每一个网站都会有对应的登录代码,有的还有数据的爬取代码。下面我们以淘宝为例:

  • 爬取淘宝各子标签,按销量排名商品信息,按分类保存至MongoDB

  • 通过pandas进行数据分析

  • 将商品在各省分布、销量排行、地图分布等通过matplotlib绘图显示



以上是淘宝爬虫相关的文件:

  • taobao.py为模拟登录

  • 剩下的文件为爬虫


模拟登陆的代码如下:



Bilibili自动登录测试正常,成功率98%



如果你还想查看更多示例,可以前往GitHub详情页,而且创建者也鼓励广大开发者提 Issue 或 Pull Requests。



目前该项目已经获得 4246 个Star,635 个Fork(GitHub地址:https://github.com/CriseLYJ/awesome-python-login-model



●编号582,输入编号直达本文

●输入m获取文章目录

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/30082
 
459 次点击