社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

揭秘知乎大V [Python数据分析]

Crossin的编程教室 • 4 年前 • 418 次点击  

知乎,可以说是国内目前最大的问答类社区。与微博、贴吧等产品不同,知乎上面的内容更多是用户针对特定的问题分享知识、经验和见解。咱们编程教室就有不少读者是从知乎上了解到我们的。


那么,知乎上都有哪些“大V”用户?普通用户喜欢关注哪方面内容?我们利用 Python 对知乎上的部分信息进行了个采集,做了一份简单的统计。


这个统计也是我们用 Python 做网站数据分析系列的一部分,是 Python 爬虫和数据可视化的典型案例。代码、详细说明文档、数据均已上传,获取方式见文末,对这方面感兴趣的朋友可下载查阅。


另外要说明的是,这个项目的代码由实训生 清风小筑 完成于今年7月,所以并非最新数据,主要是思路的学习讨论,结果仅供参考。


大V的关联


首先给大家看的是知乎上粉丝数前50用户的关系图:

图中的线是用户之间的相互关注的关系。这三张图的差别只在圆圈的大小上,依次分别代表:粉丝数连入度(被图中其他人关注的数量)、连出度(关注图中其他人的数量)

比较明显的是,像知乎日报、刘看山、丁香医生这类普通用户关注较多的“机构号”,在大V中的受关注度并不高。


这张图是通过一个叫做 Gephi 的软件,基于 Python 采集下来的数据做出来的。其中圈的颜色是 Gephi 根据关联关系自动聚合的结果。(参考之前漫威角色关系分析文章)

在知乎这个案例中,“阵营”的划分并不像漫威那么明显,但可以发现机构号基本都被归在了一类,说明关注行为有一定的相似性(张佳玮躺枪)。



谁是大V


知乎的四大指标:关注、赞同、感谢、收藏。我们分别看下以不同指标排行的“头部用户”:


(点击可查看大图。截图仅取前20,完整见交互版本)


其中,张佳玮可以说是非常突出了。(这个名字好熟悉……还记得之前的虎扑分析吗?)



官方收录回答数,张佳玮还是遥遥领先,收录文章数也榜上有名。


如果不论质量,仅看数量的话:



知乎于2010年12月20日上线,到今年7月31日共3145天,轮子哥vzch平均每天要回答7个问题以上(怀疑给他发工资的是微软还是知乎……),而太平洋电脑网则平均每天发表12.8篇文章,真是有够努力!


把这几组数据合成了两张三维散点图:




图中选取的数据为关注数大于1万的用户。在项目里有可以交互的网页版本,可以更直观的查看这个分布图。



大V的热情在消退?



上面几张图是对目前关注数超10万的用户的历史发布数据进行的统计。从图上来看,2015年大V们更热衷于回答,后来则大都改去写专栏文章了。从趋势来看,似乎大V们发文的频率已不再增长。不过这并不能直接推断知乎的整体热度,也可能内容的产出更分散于不同用户了呢?这就只有知乎官方才有权威数据了。


用户爱看什么?



这些关注度最高专栏和收藏夹,里面有你关注的吗?


最后,这是一个以关注数超1万的用户的个人简介做出来的词云:

不过有点尴尬,似乎大家更喜欢在简介里发自己的公众号、微信和微博呢。


以上就是我们对于知乎公开数据做的一些分析。除此之外,我们之前还做了一个定期更新的知乎大V动态排行,欢迎查看。参见本系列之前的文章:

用python爬虫追踪知乎/B站大V排行

B站用户行为分析非官方报告

案例|虎扑社区用户行为分析

谁才是漫威的绝对C位

用 Python 监控知乎和微博的热门话题


相关代码、文档、数据已上传。获取请在公众号(Crossin的编程教室)里回复关键字 知乎




Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/50131
 
418 次点击