Py学习  »  Python

从万众期待到口碑扑街!唐探3令人失望,用Python来分析一下大家的评论

CDA数据分析师 • 3 年前 • 301 次点击  

作者:菜鸟哥 

来源:菜鸟学Python


唐人街探案系列题材,凭借着演员出色的表演,以及精彩的探案故事,近些年来成为了一部很不错的搞笑探案类的影片,取得了票房和口碑的双丰。

但是随着唐探3在全国影院的全面上线,大家对于这部电影的评价却是非常的出乎意料,豆瓣评分只有区区6.1分。很多影评表示非常的失望。小编从豆瓣和猫眼两个网站用Python获取了几千条影评数据,一起来看看大家是怎么说的吧。


01.数据获取
首先我们分别从豆瓣和猫眼网站中获取网站的公开数据,对于数据的获取,由于两个网站都存在较强的反爬虫机制,这里我们以猫眼为例,为大家展示一下主要的程序。

爬虫的程序其实很简单,就是构造一个url用requests去请求,这样类似的程序其实前面写影评的时候,菜鸟哥写很多,这里就不赘述。

然后主体的程序我们用循环遍历解析每个网页,然后提取短评即可。

上述的程序中,通过self.save_data函数来调用self.parse_data函数解析url,而在self.parse_data函数中,通过解析请求网页所获得的json数据,提取我们想要抓取的评论、用户所在城市等信息。对于豆瓣、猫眼所抓取的数据,如下图所示:


02.数据分析
获取到数据之后,接下来针对获取到的数据进行分析,看一下包含哪些信息。
首先我们来看一下豆瓣评论,唐探3上映时间是大年初一的早晨八点,由于大家的评论时间大都集中在大年初一,所以我们就来看一下,这一天当中时间的分布信息。

上述的程序首先提取了评论时间中的小时信息,然后利用pyecharts中的Line类进行可视化展示。

从大家的评论时间可以看出,绝大多数的评论者都是看完了唐探三后立即进行评论,因此可以看到评论的时间是在上午的十点到十一点时间最为集中。那豆瓣中大家对于唐探3的评分如何呢?

上图程序中,我们利用饼形图来进行豆瓣评分的可视化展示。

上图中,可以看到,超过了66%的影评者给出了“较差”或者“很差”的评价,而给出力荐和推荐的影评者不到20%。看来这一次唐探在豆瓣的评分真的是扑街了。光有评分还不够,我们通过影评词云的展示,来看看大家对于这部电影的评价吧。

可以看到,豆瓣影评者对于唐探三的评论中,几乎没有关于“喜欢”、“好看”等等关键词,反而出现了“尴尬”、“最后”、“恶心”等关键词。


03.猫眼的数据

看完了豆瓣影评者的评论,接下来我们把目光聚焦到猫眼上来,看看猫眼的影评者所给出的评价是如何的吧。
1).打分情况
作为同豆瓣的对比信息,我们来看一下猫眼影评者在影片打分上的分布情况吧。

如上图所示,可以看到,猫眼评分中绝大多数的人给出的评价在4.5以上,而得分在1.5分以下的占比非常少。这样的打分情况跟豆瓣评分简直是两个极端的存在。


2).城市分布

对于猫眼的用户,他们的所在的城市分布是如何的呢?

通过对于猫眼影评者城市的信息统计,并利用Geo类进行可视化展示,其结果如下图所示。

通过上图可以看到,评论者在全国的范围内还是大多都集中在东部沿海和成都,重庆等方向,其中北上广等一线城市的影评者分布更为密集。
3).关键词
对于猫眼影评者来说,既然评分很高,那么他们的影评词云关键词是什么呢?

可以看到,与豆瓣评论者明显不同的是,猫眼影评者的关键词都是关于“好看”、“不错”、“搞笑”‘、“可以”等积极的评价,与猫眼高评分相呼应。



 

CDA课程咨询

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/107751
 
301 次点击