Py学习  »  Python

豆瓣评分3.2,用Python+AI 告诉你为啥《上海堡垒》凉凉了

菜鸟学Python • 4 年前 • 227 次点击  

最近由鹿晗、舒淇等主演的电影《上海堡垒》已在全国各大影院上线,《上海堡垒》的核心主题是科幻、战争和爱情。在预告之时,小编觉得这部电影应该挺不错,但不成想,上映之后,票房和口碑都纷纷扑街,豆瓣评分只有3.2分左右


这样的情况让人着实意想不到,所以小编就决定对于大家的影评进行分析,并结合AI情感分析,看一下大家对于这部国产科幻片究竟是怎样的看法。


1
数据的获取


小编在猫眼影评上爬取了《上海堡垒》的5万多条影评,爬了好长时间,电脑的风扇呼呼的转~~



首先是关于数据的爬取,数据的爬取相对简单,大家只需要打开猫眼这部片子的网址,便可以看到下面的影评。在开发者模式中,切换到移动端,便可以看到影评!


爬取的代码也非常简单,并不复杂,部分代码如下图所示:

1).我们爬取了从上映到8月19号的数据,这个comment的api需要用时间戳来构造,然后可以递归爬取,也可以循环爬取


2).然后获取数据之后,进行清洗并存储


3).主要爬取了大家的城市,评论内容、评分、性别,昵称,时间,用户等级等等信息:



2
数据的分析



上面的爬虫代码,爬的我的电脑风扇呼呼的转啊(下次一定要用并发去优化一下),得到影评信息后,接下来是对于数据的分析,我们大概有近5万条数据,数据量也不小!


1).首先是对于性别的分析


可以看出,除了为表明性别的观影者,其余的观影者中男女比例悬殊不是很大,毕竟有鹿晗和舒淇两位明星,男女观众都有一定的保障。


2).观影者的城市分布如下所示:

可以看出,观影者的分布中,最为突出的还是集中在了北上广深这样的一线大城市。


3).对于评分,小编感到非常的有意思


从图中可以看出,人数最多的评分分别为5分(满分)和0.5分,出现了明显的两极分化现象,而且竟然还有284的观影者直接给出了零分,看来《上海堡垒》让这284名观众非常的失望了。不仅仅如此,小编还对每天的评分均值做了一个统计,如下图所示。

截止到8月19号,《上海堡垒》的评分真的是王小二过年一年不如一年,以上数据分析的部分程序如下图所示。


从上面的分析中,我们可以看出,很多的观众对于这部电影是非常失望的!到底有多失望可,我们不妨用机器学习做一个情感分析吧!



3
AI来情感的分析



小编就对于观众的评论做一个情感分析,从大家的评论中更加直观的分析大家对于这部影片的看法。这次选取了10000条影评进行了情感分析,进行情感分析所采用的是百度的情感分析接口。

1).利用百度AI创建应用

首先是在百度情感分析的平台中创建应用,然后得到相应的API ID等信息,如下图所示。

2).得到每一条评论的情感分析

然后结合其给出的示例程序,便可以得到每一条评论的情感分析,其返回的参数有四个,分别是评论是积极态度的概率,消极态度的概率,情感分类的结果,以及这样分类的置信度,部分程序如下图所示:

要先install AIP库,然后导入AIPNLP模块,利用我们申请好的key,token,生存一个nlp的client,然后从评论的数据集中过滤出评论的文本内容。


  • 我们首先从文件中将影评者的一万多条评论提取出来

  • 然后将评论送入到百度云提供的接口

  • 接着将返回的四个数据分别存放到positive_prob, negative_prob, confidence, sentiment四个列表当中

  • 最后,当所有的评论都分析完成后,将上述的四个列表写入到csv文件中。


3).按照评论情感分类的结果,看一下关于观众情绪的一个分布的情况:

从上图中可以看出,仅有33%左右的观众是保持着一种积极的态度,而对电影持消极态度的观影者则接近60%而且由于机器智能判断存在不足,会将一些讽刺意味的话判断为积极的情绪,例如:


看来机器分析有的时候也不一定非常准,如果需要精度非常高的情感分析需要自己去训练模型才行,但是普通的分析百度AI接口足以!


最后,小编为大家展示的是持积极态度和消极态度的观影者的影评词云。如下图所示

上图是消极态度的影评词云,大家对于这部电影的评论也比较苛刻。

上图是积极态度的影评词云。可以看出,持积极态度的影评者对于这部电影还是非常喜欢的。



以上就是小编为大家带来的关于《上海堡垒》的影评分析(熬夜写这个太辛苦了),相信通过上面的分析,大家对于这部电影会有更加充分的了解,如果有看过的同学,有可以吱一声,说说你的看法。


近期热门:

倒计时2天!千人Python知识星球重大福利,一年仅一次!


菜鸟必收藏,13个Python惯用小技巧

高手心得|菜鸟学Python从入门到进阶


学习群:

小密圈人气很高的两个实战项目

小密圈的趣味实战-微信主题

3个月还没入门Python,看这100名小密圈的同学3周学Python的杰作


本篇文章从数据的爬取,到数据分析,到机器学习的处理,到写稿,最后编辑排版,校对,前前后后花了好几天的时间,改了10几个版本,原创真心不易!

给个[在看],是对小编最大的支持!
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/38354
 
227 次点击