Py学习  »  Python

数据科学 | 实锤!用python扒一扒那些疯狂收割着大家的智商税的“烂片”和“艺人”

运筹OR帷幄 • 4 年前 • 344 次点击  

↑↑↑↑↑点击上方蓝色字关注我们!







『运筹OR帷幄』转载


作者:徐麟


编者按

“观影有风险,选片需谨慎”。近几年,电影界可谓风起云涌,涌现了一批叫好又叫座的影片,当然也不乏众多一日游的烂片鱼目混珠,滥竽充数。为了让大家做到合理选片,有良心作者用Python爬取了豆瓣的数据,分别针对“烂片”排出了人气榜、票房榜和演员榜。令人吃惊的是,烂片票房榜中的TOP10都超过了2.6亿,大闹天竺和爱情公寓更是分别收获了7.5亿和5.5亿的票房,就连超级烂片的TOP10都可以收割5000万以上的票房,更是有四部票房过亿,疯狂收割着大家的智商税。赶快收藏+分享这篇文章,带上火眼金睛,管他是人是妖,和这些“烂片”以及这些为“烂片”带盐的“艺人”彻底划清界限。



作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)



前言 


随着电影行业的蓬勃发展,越来越多的电影出现在了观众的视野中,丰富了大家的生活,好的电影也能让大家在放松自我的同时收获一些对人生的思考。


然而,也有那么一些“烂片”,让大家在看过之后“添堵”,后悔为这种“烂片”贡献票房,白白被收割了“智商税”,今天,我们就用Python来几年那些被烂片收割走的智商税。




数据获取 


这次的数据源也是大家的老朋友,被亲切地称之为“马蜂窝”的豆瓣网,现在有很多平台会对电影进行打分,包括了猫眼和淘票票,但是相较之下,豆瓣的评分更加全面,一些冷门的“烂片”只能在豆瓣中被大家挖掘出来。


诚然,豆瓣的评分会存在一些“文艺滤镜”,对文艺片比较宽容,对此我们认为,“豆瓣评分高的不一定是真的高,但是被豆瓣打了低分的是真的低”。此次选择的影片范围是2010年至今的国产影片:



最终获取到了3000多部电影的数据,代码如下:





    
## 爬取剧集列表,并输出成为excel表格
driver = webdriver.Chrome()
driver.maximize_window()
driver.close()
driver.switch_to_window(driver.window_handles[0])
url = 'https://movie.douban.com/tag/#/?sort=U&range=2,10&tags=%E7%94%B5%E5%BD%B1,2010%E5%B9%B4%E4%BB%A3,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
while True:
   try:
     js="var q=document.documentElement.scrollTop=10000000"  
     driver.execute_script(js)
     driver.find_element_by_class_name('more').click()
     time.sleep(2)
   except:
     break 

name = [k.text for k in driver.find_elements_by_class_name('title')]
score = [k.text for k in driver.find_elements_by_class_name('rate')]
url = [k.get_attribute('href'for k in driver.find_elements_by_class_name('item')]
pd.DataFrame({'name':name,'score':score,'url':url}).to_excel('电影名称.xlsx')



整体数据 


首先要做的事情就是看一下豆瓣对国产电影的整体打分情况,以此确定之后对“烂片”的划分依据,首先看一下整体评分的柱形图:



可以看到豆瓣用户对国产片还是比较严格,大多数电影都是在6分一下,8分以上的电影可以说是“凤毛麟角”,因此后续对烂片的标准也要相应放低,下面看一下各个将分数向下取整后的统计数量:



2010年之后获得9分的国产电影只有一部,可以说是非常的不易,大家可以猜一下是哪部电影,看看是不是你心中的9分电影


下面为大家揭开谜底:



唯一一部获得9分的就是18年上映的《我不是药神》,未来也希望能有更多这样的优秀影片,而且这种期望也是有依据的,我们看一下每一年烂片和非烂片的占比:



可以看到从烂片和超级烂片占比在16年达到顶峰之后,从17年开始烂片占比在逐渐下降,相信未来烂片的占比也会逐渐下降


人气榜 


有了整体的综述后,我们确定了烂片和超级烂片的划分依据,将4分之下的影片划分为烂片,3分以下的影片划分为超级烂片,下面就分别来看看各自的人气榜:



可以看到在所有的影片中,人气TOP10的影片评分都还是不错,流浪地球,药神和哪吒也都在票房中有非常不错的表现,显然,这不是我们需要,我们下面就来看下烂片和超级烂片中的人气榜:




热烈恭喜《上海堡垒》凭借2.9分的评分和217110的评价数喜提两项人气榜的冠军,《爱情公寓》因为“大忽悠”式的营销也跻身榜单,不知道即将上映的《爱情公寓5》能否为这一系列挽回一些口碑



票房榜 


同样,我们来分别看下所有影片、烂片和超级烂片的票房排行,看看究竟是哪些“烂片”在疯狂收割着大家的智商税,首先看一下左右影片的票房榜:



排名第10的西虹市首富票房都已经到了25亿,可见票房市场发展之迅速,今年国庆档的两部影片《我和我的祖国》以及《中国机长》分列八九名,相信未来这份榜单会不断的发生变化。


《西虹市首富》同样以6.5分的评分在榜单中评分最低,看来《西虹市首富》已经成为了一个标杆,6.5分也是一部票房卖座影片的底线,下面进入重点了,看一下那些疯狂收割大家智商税的烂片和超级烂片:



烂片票房榜中的TOP10都超过了2.6亿,大闹天竺和爱情公寓更是分别收获了7.5亿和5.5亿的票房,疯狂收割着大家的智商税,相信未来随着大家对影片要求的提高,疯狂收割智商税的现象会逐渐减少



令人意想不到的是,就连超级烂片的TOP10都可以收割5000万以上的票房,更是有四部票房过亿,在此提醒大家“观影有风险,选片需谨慎”


演员榜


一部烂片的诞生想必也离不开“演员”的努力,下面就来分别看看所出演电影平均分最高和最低的演员:



评分高的演员就无须赘述了,都是经过了市场和观众的挑战,但是目前还没有一位演员在主演影片数量超过5部之后,分数可以上7,诚然有一部分是因为豆瓣对国产的严格要求,但另一方面也在敦促电影人不断进步


下面看一下评分排在倒数的演员,首先看下BOTTOM10:



看到这份榜单,有种恍惚的感觉,确认这不是主持人或者相声、小品演员的榜单,我们不禁要问:大家有事吗?快乐家族更是“霸榜”,杜海涛凭借精湛的演技和出众的外形在榜单中独占鳌头,相信他未来会给大家带来更为“惊艳”的作品,吴亦凡也代表说唱歌手在榜单中出现,填补了榜单中歌手的空白。



由于过多的“跨界”演员出现在了榜单BOTTOM10中,导致很多大家心目中的演员没有上榜,于是我们继续看BOTTOM11-20,这份榜单似乎正常了一点,但是好多更加应该在电视剧中出现的名字也位列其中。


看来电影和电视剧还是有所区别,在电视剧中能够大放异彩的演员未必能在电影中有同样精彩的表现,考虑到电视剧演员们的加入,继续把榜单范围放大到BOTTOM21-30:



这份榜单终于正常了很多,很多大家心目中的“种子选手”都不负众望地出现在了榜单中,特别是黄晓明和Angelababy这对模范夫妻的上榜,进一步提高了榜单的公信力,未来也希望他们能够继续联袂为大家带来精彩作品,很多人可能会表示怀疑,对此我们的回复很简单:我不要你相信,我要我相信!


彩蛋 


最后进入彩蛋环节,为大家带来豆瓣高分(2.1)获得8W+评价(chaping)的影片《纯洁心灵:逐梦演艺圈》的深度解读(tucao),由于影片过于精彩,想要光看全片的需要在优酷进行付费观看,想要体验被收割智商税的快感,不妨一试,后台回复“烂片”可以获取文章部分代码



号外!『运筹OR帷幄』入驻知识星球!

 随着算法相关专业热度和难度岗位对专业人才要求的提高,考研、读博、留学申请、求职的难度也在相应飙升。

『运筹OR帷幄』特建立『算法社区』知识星球,依托社区30w+专业受众和25+细分领域硕博微信群,特邀国内外名校教授、博士及腾讯、百度、阿里、华为等公司大咖与大家一起聊算法。快来扫码加入,点对点提问50位大咖嘉宾!

# 加入知识星球,您将收获以下福利 #

● 全球Top名校教授|博士和名企研发高管一起交流算法相关学术|研发干货

 中国你能说出名字的几乎所有大厂|欧美数家大厂(资深)算法工程师入驻

● 依托『运筹OR帷幄』30w+专业受众和25+细分领域硕博微信群的算法技术交流

● 以上所有公司|高校独家内推招聘|实习机会、多家offer选择指导

● 以面试题|作业题|业界项目为学习资料学习算法干货,从小白变成大咖

● 不定期的线上、线下交流会和聚会,拓展人脉


相关文章推荐

电影是20世纪以来出现的最受欢迎的娱乐形式,经过了100多年的发展,如今电影已经成为了人们生活不可缺少的一部分。那么这百年的电影行业发展如何?本期我们为大家带来更为全面深入的分析。

点击蓝字标题,即可阅读《数据科学 | 用大数据带你了解电影行业百年发展历程》


温馨提示

可以在 公众号后台 回复关键词:“烂片”获取文章部分代码,如果觉得有用, 请勿吝啬你的留言和赞哦!~


—— 完 ——




文章申明

Oct. 2019

文章作者:徐麟

责任编辑:疑疑

审核编辑:阿春

微信编辑:玖蓁

本文转载自公众号 数据森麟(ID:shujusenlin)

原文链接我用Python纪念了那些被烂片收割的智商税!



优质公众号推荐

击查看详情

   



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/48091
 
344 次点击