社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

从万众期待到口碑扑街!唐探3令人失望,用Python来分析一下大家的评论

菜鸟学Python • 4 年前 • 395 次点击  

公众号 “菜鸟学Python

443篇原创,设为 “星标”,一起学Python!


唐人街探案系列题材,凭借着演员出色的表演,以及精彩的探案故事,近些年来成为了一部很不错的搞笑探案类的影片,取得了票房和口碑的双丰。

但是随着唐探3在全国影院的全面上线,大家对于这部电影的评价却是非常的出乎意料,豆瓣评分只有区区6.1分。很多影评表示非常的失望。小编从豆瓣和猫眼两个网站用Python获取了几千条影评数据,一起来看看大家是怎么说的吧。


01.数据获取
首先我们分别从豆瓣和猫眼网站中获取网站的公开数据,对于数据的获取,由于两个网站都存在较强的反爬虫机制,这里我们以猫眼为例,为大家展示一下主要的程序。

爬虫的程序其实很简单,就是构造一个url用requests去请求,这样类似的程序其实前面写影评的时候,菜鸟哥写很多,这里就不赘述。

然后主体的程序我们用循环遍历解析每个网页,然后提取短评即可。

上述的程序中,通过self.save_data函数来调用self.parse_data函数解析url,而在self.parse_data函数中,通过解析请求网页所获得的json数据,提取我们想要抓取的评论、用户所在城市等信息。对于豆瓣、猫眼所抓取的数据,如下图所示:


02.数据分析
获取到数据之后,接下来针对获取到的数据进行分析,看一下包含哪些信息。
首先我们来看一下豆瓣评论,唐探3上映时间是大年初一的早晨八点,由于大家的评论时间大都集中在大年初一,所以我们就来看一下,这一天当中时间的分布信息。

上述的程序首先提取了评论时间中的小时信息,然后利用pyecharts中的Line类进行可视化展示。

从大家的评论时间可以看出,绝大多数的评论者都是看完了唐探三后立即进行评论,因此可以看到评论的时间是在上午的十点到十一点时间最为集中。那豆瓣中大家对于唐探3的评分如何呢?

上图程序中,我们利用饼形图来进行豆瓣评分的可视化展示。

上图中,可以看到,超过了66%的影评者给出了“较差”或者“很差”的评价,而给出力荐和推荐的影评者不到20%。看来这一次唐探在豆瓣的评分真的是扑街了。光有评分还不够,我们通过影评词云的展示,来看看大家对于这部电影的评价吧。

可以看到,豆瓣影评者对于唐探三的评论中,几乎没有关于“喜欢”、“好看”等等关键词,反而出现了“尴尬”、“最后”、“恶心”等关键词。


03.猫眼的数据

看完了豆瓣影评者的评论,接下来我们把目光聚焦到猫眼上来,看看猫眼的影评者所给出的评价是如何的吧。
1).打分情况
作为同豆瓣的对比信息,我们来看一下猫眼影评者在影片打分上的分布情况吧。

如上图所示,可以看到,猫眼评分中绝大多数的人给出的评价在4.5以上,而得分在1.5分以下的占比非常少。这样的打分情况跟豆瓣评分简直是两个极端的存在。


2).城市分布

对于猫眼的用户,他们的所在的城市分布是如何的呢?

通过对于猫眼影评者城市的信息统计,并利用Geo类进行可视化展示,其结果如下图所示。

通过上图可以看到,评论者在全国的范围内还是大多都集中在东部沿海和成都,重庆等方向,其中北上广等一线城市的影评者分布更为密集。
3).关键词
对于猫眼影评者来说,既然评分很高,那么他们的影评词云关键词是什么呢?

可以看到,与豆瓣评论者明显不同的是,猫眼影评者的关键词都是关于“好看”、“不错”、“搞笑”‘、“可以”等积极的评价,与猫眼高评分相呼应。



从豆瓣和猫眼中影评者的评论中,关于唐探三有着不同的评价,究竟唐探三是否能够得到大家的认可呢?欢迎有看过的小伙伴在下方留言,吱一声。

年度爆款文案

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/107676
 
395 次点击