社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

蔡徐坤真的那么火吗?用Python爬一爬蔡徐坤的真假流量粉!

互联网er的早读课 • 6 年前 • 401 次点击  


来源:Alfred数据室(ID:Alfred_Lab)

排版:鱼丸汤圆



前段时间央视新闻公开披露流量明星数据造假。作为一名数据猿,我们秉着好奇心点开了NBA新春贺岁形象大使蔡徐坤的微博,发现他的微博转发量除了最新一条之外,其它的基本每条都是转发100万+。


在我们的印象中,转发100万+可是某些明星官宣结婚、或者某些明星吸毒出轨被爆等能让微博服务器奔溃的流量呀。蔡徐坤真的那么火吗?他的100万+转发里到底是否存在假流量?假流量所占比重有多少呢?




为了解答这个问题,我们通过微博移动端随机抓取了蔡徐坤最新一条微博《再见,“任性的”千千…》的10万条转发数据(时间节点2019年3月11日10时)。这条讲诉蔡徐坤关爱小动物的短视频微博,于2019年3月9日01:23发布,到2019年3月10日18:00的时候已经被转发100万+。



数据的维度包括转发者的相关信息(昵称、性别、关注者数量和被关注者数量等)以及转发时的评论等。


一、蔡徐坤的微博转发是否存在假流量?


解答这个问题之前,我们其实对于蔡徐坤的粉丝性别比例更加感兴趣。按理来说应该他的女粉丝所占比例应该更大,但是我们统计了102313条转发数据中,有93618条是男粉丝转发的,只有8695条是女粉丝转发的。



这不对呀,难道更多的男生喜欢蔡徐坤吗?而且这比例也太悬殊了一点吧?于是我们随机抽取了男生转发的数据,发现这些转发的男粉丝基本上都是关注0,粉丝1的用户。



我们合理地推测:这些流量就是所谓的假流量。

那假流量所占的比例有多少呢?在这随机抓取的10万条转发数据中,有多少是假的流量呢?


二、真假流量所占的比例各有多少?


通过一番探索分析,我们把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据,以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。


这部分数据,便是我们所说的假流量。



可见,102313条转发数据中,有95397条是由假粉丝转发的,占了总转发的93.24%,只有6916条是由真粉丝转发的,占6.76%。原来假流量占的比重那么高啊!


那么6919条真粉丝转发的数据中,除去重复转发刷榜的数量,里面一共有多少个真粉丝在转发呢?我们把这部分数据按照粉丝微博ID进行去重。发现这里面只有3926个真粉丝在转发,也就是说,真实转发的粉丝数量,占总转发量的3.84%。



按照这个比例,可以推算出100万的转发中,真实转发的粉丝数为3.84万,说明蔡徐坤的粉丝群和影响力还是很大的,但远没有微博显示的全是100万+转发量那么大。


你可能会说:我们自己的微博,平时也有一些假粉丝在转发呀。为了进行对比,我们还抓取了最近活跃在《歌手》舞台的吴青峰叔叔(粉丝数1377万)最新的一条微博转发数据10006条(时间节点2019年3月11日10时)。



我们把这些数据按照跟上面一样的步骤提取出真假粉丝转发量,发现只有很少比例的假粉丝量,绝大部分都是真粉丝转发的。



并且,在9658条真粉丝转发数据中,真粉丝量也高达9318,说明不存在粉丝打榜的情况。跟蔡徐坤的数据相比,可以发现有明显的不同。



三、假流量粉丝是如何生产出来的?


在高达93.24%的假转发量中,这些假粉丝都是如何生产出来的呢?有什么共同的行为特征呢?我们先给假粉丝进行了用户画像。



可见95397条假转发中,有40838个假粉丝。其中男性的比例高达95.42%!

我们把转发中所携带的评论进行计数,看看假粉丝在转发的时候都喜欢说什么,却发现了一些更有趣的事。



很多假粉丝去转发微博用户“蔡徐坤的南岸末阴大小姐”和“超超超超爱蔡蔡的思思”的微博(大家千万不要去攻击他们哈),我们搜索了一下这两个人,发现她们的粉丝量只有一两百人,转载的全是蔡徐坤的微博,并且很多微博再转发量为0,却有少数的微博再转发量高达好几千!



这,估计就是自己花钱为偶像买流量的粉丝。


另外,我们发现很多假流量粉在转发的时候喜欢携带英文评论。搜索了一下发现,这些英文评论,要么是英文歌词、要么是美剧台词、要么是泰戈尔或者聂鲁达的诗句。



在假粉丝使用的Top10转发设备中,Android高居榜首,这也再次证明了这些粉丝是假粉丝。



另外还有一些有趣的发现:假粉丝的平均关注是3.44,平均粉丝数是1.04,没有简介,昵称基本上都是“中文+英文和数字”这个格式,很多假粉丝的昵称都带有“坤”、“蔡”、“葵”、“kun”等字,头像都是蔡徐坤(说明很多都是定制粉啊)。



四、真流量粉的粉丝画像


先来看看真粉丝的性别比例。可见3926个真粉丝中,女生占了绝大部分,这才是符合逻辑的粉丝比例嘛。



在这些粉丝转发所携带的评论中可以看到,很多都是支持蔡徐坤拿下#明星势力榜#或者#东方风云榜#第一名而转发的。



真粉丝所使用的转发设备,各种设备分布都比较均匀,最受欢迎的是iPhone客户端。



真粉丝的平均关注量为222,平均粉丝数是179,同样,很多粉丝名字中喜欢带有“坤”、“蔡”、“葵”、“kun”等字。


我们把真粉丝的简介做成了词云图。



可见,真粉丝们的简介都喜欢带上蔡徐坤的名字,很喜欢蔡徐坤,想要一直陪着他走下去。看着里面的“少年”、“努力”、“自由”“追梦”等字眼,发现这就是我们以前的青春呀。


另外还把转发所带的评论做成了词云图。



可见,粉丝们都很在乎“风云榜”这件事,并且要帮助蔡徐坤拿第一名。里面有早安打卡的,有超级话题的,还有很多“开心”、“比心”、“温暖”等字眼。说明绝大部分真粉还是很温暖的。


五、总结


数据显示,蔡徐坤动辄100万+的微博转发中,确实存在绝大部分的假流量。这些假流量估计有两方面的来源:一是自身经纪公司购买的,二是忠实的粉丝自费购买的。


若是自身经纪公司购买的话,这确实扰乱了整个娱乐圈市场的运作,对于娱乐圈乃至整个社会风气都是不好的。若是忠实粉丝购买的,Alfred觉得,数据只是一个数据,这其中的资金,可以通过其它方面更好的方面去给自己的偶像添加影响力呀。我看最近蔡徐坤转发的#脱贫攻坚战星光行动# 这个话题就很好呀,通过自己的影响力,去做更多正能量的事情。


如果觉得文章对你有所帮助,欢迎留言并且推荐给你的好友。


本文由Alfred数据室(ID:Alfred_Lab发布,授权互联网早读课转载。内容仅代表作者独立观点,不代表早读课立场。如需转载,请联系原作者。


热点阅读:

延伸阅读:


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/31145
 
401 次点击