Python中国社区  »  Python

Python爬虫学习笔记(1)爬取知乎用户信息

江先生 • 4 天前 • 12 次点击  

生苦短,我用Python

最近一段时间因为大数据分析以及AI的兴起,所以想着学习一下Python,刚接触Python就被其优雅、简洁、明确的语法和强大的第三方库所吸引。我的理念一直是学习一门语言,必须在实践中去学习,在实践中不断解决问题而熟悉语法以及深刻理解。

第一次爬取得信息是知乎的某一用户所关注的人的公开信息。

因为本人是新手一枚,所以使用Python的IDE-PyCharm。另一原因也因为我之前是用C#的,所以对于强大的IDE情有独钟。

1、学习任何一门语言,你都必须安装其对应的工作环境,Python也不例外,在windows上安装Python很简单,只需要去官方网站下载对应的安装程序:www.python.org/downloads/r…;然后运行安装包:

preview

特别注意:一定要勾上Add Python 3.6 to PATH,然后点Install Now就行了

安装完之后打开命令提示符窗口,输入python回车,若出现以下信息,则安装成功。

2、安装Pycharm:PyCharm: Python IDE for Professional Developers by JetBrains;

3、打开Pycharm,新建一个项目,再新建一个Python文件,后缀名为.py.

4、打开知乎首页-->登陆-->搜索到一个大V,用谷歌浏览器分析点击关注了哪些人后的请求,通过分析:查找他关注的人的请求链接:www.zhihu.com/api/v4/memb…*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset=40&limit=20

preview

通过观察尝试分析后可知:offset=40是偏移量,通过改变这个值可以实现分页的效果。

知乎是做了反爬虫的措施的,所以我们要想爬取知乎信息,还必须要设置请求头,下面我们来分析请求头:

图片中红箭头所指就是请求必须需要的值,

authorization:是身份认证信息,每个用户登录后都会产生各自的身份认证信息。

User-Agent:是验证请求是来自正常的浏览器访问

最终代码如下:

import requests
import pandas as pd
import time
headers={
    'authorization':'',#此处填写你自己的身份验证信息
    'User-Agent':''#此处填写你自己浏览器的User-Agent
}
user_data = []
def get_user_data(page):
    for i in range(page):#翻页
        url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20)
        response = requests.get(url, headers=headers).json()['data']
        user_data.extend(response) #把response数据添加进user_data
        print('正在爬取第%s页' % str(i+1))
        time.sleep(1) #设置爬取网页的时间间隔为1秒

if __name__ == '__main__':
    get_user_data(10)
    df = pd.DataFrame.from_dict(user_data)#以字典保存数据
    df.to_csv('zhihu.csv',encoding='utf_8_sig')#保存到用户名为zhihu的csv文件中,encoding='utf_8_sig'参数是为了解决中文乱码的问题
    print(df)



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/cRmYcQUNKj
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/5268
 
12 次点击  
分享到微博
分享
社区所有版块导航
Python
python开源   pycharm   Django   Python   DjangoApp  
DATA
Elasticsearch   docker  
WEB开发
linux   MongoDB   bottle   tornado   Redis   IE   NoSql   DATABASE   MQ   Bootstrap   NGINX   js   其他Web框架   peewee   Jquery   web工具   Git   zookeeper  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广