社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

数据科学 | 实锤!用python扒一扒那些疯狂收割着大家的智商税的“烂片”和“艺人”

运筹OR帷幄 • 5 年前 • 475 次点击  

↑↑↑↑↑点击上方蓝色字关注我们!







『运筹OR帷幄』转载


作者:徐麟


编者按

“观影有风险,选片需谨慎”。近几年,电影界可谓风起云涌,涌现了一批叫好又叫座的影片,当然也不乏众多一日游的烂片鱼目混珠,滥竽充数。为了让大家做到合理选片,有良心作者用Python爬取了豆瓣的数据,分别针对“烂片”排出了人气榜、票房榜和演员榜。令人吃惊的是,烂片票房榜中的TOP10都超过了2.6亿,大闹天竺和爱情公寓更是分别收获了7.5亿和5.5亿的票房,就连超级烂片的TOP10都可以收割5000万以上的票房,更是有四部票房过亿,疯狂收割着大家的智商税。赶快收藏+分享这篇文章,带上火眼金睛,管他是人是妖,和这些“烂片”以及这些为“烂片”带盐的“艺人”彻底划清界限。



作者:徐麟,某互联网公司数据分析狮,个人公众号数据森麟(id:shujusenlin)



前言 


随着电影行业的蓬勃发展,越来越多的电影出现在了观众的视野中,丰富了大家的生活,好的电影也能让大家在放松自我的同时收获一些对人生的思考。


然而,也有那么一些“烂片”,让大家在看过之后“添堵”,后悔为这种“烂片”贡献票房,白白被收割了“智商税”,今天,我们就用Python来几年那些被烂片收割走的智商税。




数据获取 


这次的数据源也是大家的老朋友,被亲切地称之为“马蜂窝”的豆瓣网,现在有很多平台会对电影进行打分,包括了猫眼和淘票票,但是相较之下,豆瓣的评分更加全面,一些冷门的“烂片”只能在豆瓣中被大家挖掘出来。


诚然,豆瓣的评分会存在一些“文艺滤镜”,对文艺片比较宽容,对此我们认为,“豆瓣评分高的不一定是真的高,但是被豆瓣打了低分的是真的低”。此次选择的影片范围是2010年至今的国产影片:



最终获取到了3000多部电影的数据,代码如下:





    
## 爬取剧集列表,并输出成为excel表格
driver = webdriver.Chrome()
driver.maximize_window()
driver.close()
driver.switch_to_window(driver.window_handles[0])
url = 'https://movie.douban.com/tag/#/?sort=U&range=2,10&tags=%E7%94%B5%E5%BD%B1,2010%E5%B9%B4%E4%BB%A3,%E4%B8%AD%E5%9B%BD%E5%A4%A7%E9%99%86'
js='window.open("'+url+'")'
driver.execute_script(js)
driver.close()
driver.switch_to_window(driver.window_handles[0])
while True:
   try:
     js="var q=document.documentElement.scrollTop=10000000"  
     driver.execute_script(js)
     driver.find_element_by_class_name('more').click()
     time.sleep(2)
   except:
     break 

name = [k.text for k in driver.find_elements_by_class_name('title')]
score = [k.text for k in driver.find_elements_by_class_name('rate')]
url = [k.get_attribute('href'for k in driver.find_elements_by_class_name('item')]
pd.DataFrame({'name':name,'score':score,'url':url}).to_excel('电影名称.xlsx')



整体数据 


首先要做的事情就是看一下豆瓣对国产电影的整体打分情况,以此确定之后对“烂片”的划分依据,首先看一下整体评分的柱形图:



可以看到豆瓣用户对国产片还是比较严格,大多数电影都是在6分一下,8分以上的电影可以说是“凤毛麟角”,因此后续对烂片的标准也要相应放低,下面看一下各个将分数向下取整后的统计数量:



2010年之后获得9分的国产电影只有一部,可以说是非常的不易,大家可以猜一下是哪部电影,看看是不是你心中的9分电影


下面为大家揭开谜底:



唯一一部获得9分的就是18年上映的《我不是药神》,未来也希望能有更多这样的优秀影片,而且这种期望也是有依据的,我们看一下每一年烂片和非烂片的占比:



可以看到从烂片和超级烂片占比在16年达到顶峰之后,从17年开始烂片占比在逐渐下降,相信未来烂片的占比也会逐渐下降


人气榜 


有了整体的综述后,我们确定了烂片和超级烂片的划分依据,将4分之下的影片划分为烂片,3分以下的影片划分为超级烂片,下面就分别来看看各自的人气榜:



可以看到在所有的影片中,人气TOP10的影片评分都还是不错,流浪地球,药神和哪吒也都在票房中有非常不错的表现,显然,这不是我们需要,我们下面就来看下烂片和超级烂片中的人气榜:




热烈恭喜《上海堡垒》凭借2.9分的评分和217110的评价数喜提两项人气榜的冠军,《爱情公寓》因为“大忽悠”式的营销也跻身榜单,不知道即将上映的《爱情公寓5》能否为这一系列挽回一些口碑



票房榜 


同样,我们来分别看下所有影片、烂片和超级烂片的票房排行,看看究竟是哪些“烂片”在疯狂收割着大家的智商税,首先看一下左右影片的票房榜:



排名第10的西虹市首富票房都已经到了25亿,可见票房市场发展之迅速,今年国庆档的两部影片《我和我的祖国》以及《中国机长》分列八九名,相信未来这份榜单会不断的发生变化。


《西虹市首富》同样以6.5分的评分在榜单中评分最低,看来《西虹市首富》已经成为了一个标杆,6.5分也是一部票房卖座影片的底线,下面进入重点了,看一下那些疯狂收割大家智商税的烂片和超级烂片:



烂片票房榜中的TOP10都超过了2.6亿,大闹天竺和爱情公寓更是分别收获了7.5亿和5.5亿的票房,疯狂收割着大家的智商税,相信未来随着大家对影片要求的提高,疯狂收割智商税的现象会逐渐减少



令人意想不到的是,就连超级烂片的TOP10都可以收割5000万以上的票房,更是有四部票房过亿,在此提醒大家“观影有风险,选片需谨慎”


演员榜


一部烂片的诞生想必也离不开“演员”的努力,下面就来分别看看所出演电影平均分最高和最低的演员:



评分高的演员就无须赘述了,都是经过了市场和观众的挑战,但是目前还没有一位演员在主演影片数量超过5部之后,分数可以上7,诚然有一部分是因为豆瓣对国产的严格要求,但另一方面也在敦促电影人不断进步


下面看一下评分排在倒数的演员,首先看下BOTTOM10:



看到这份榜单,有种恍惚的感觉,确认这不是主持人或者相声、小品演员的榜单,我们不禁要问:大家有事吗?快乐家族更是“霸榜”,杜海涛凭借精湛的演技和出众的外形在榜单中独占鳌头,相信他未来会给大家带来更为“惊艳”的作品,吴亦凡也代表说唱歌手在榜单中出现,填补了榜单中歌手的空白。



由于过多的“跨界”演员出现在了榜单BOTTOM10中,导致很多大家心目中的演员没有上榜,于是我们继续看BOTTOM11-20,这份榜单似乎正常了一点,但是好多更加应该在电视剧中出现的名字也位列其中。


看来电影和电视剧还是有所区别,在电视剧中能够大放异彩的演员未必能在电影中有同样精彩的表现,考虑到电视剧演员们的加入,继续把榜单范围放大到BOTTOM21-30:



这份榜单终于正常了很多,很多大家心目中的“种子选手”都不负众望地出现在了榜单中,特别是黄晓明和Angelababy这对模范夫妻的上榜,进一步提高了榜单的公信力,未来也希望他们能够继续联袂为大家带来精彩作品,很多人可能会表示怀疑,对此我们的回复很简单:我不要你相信,我要我相信!


彩蛋 


最后进入彩蛋环节,为大家带来豆瓣高分(2.1)获得8W+评价(chaping)的影片《纯洁心灵:逐梦演艺圈》的深度解读(tucao),由于影片过于精彩,想要光看全片的需要在优酷进行付费观看,想要体验被收割智商税的快感,不妨一试,后台回复“烂片”可以获取文章部分代码



号外!『运筹OR帷幄』入驻知识星球!

 随着算法相关专业热度和难度岗位对专业人才要求的提高,考研、读博、留学申请、求职的难度也在相应飙升。

『运筹OR帷幄』特建立『算法社区』知识星球,依托社区30w+专业受众和25+细分领域硕博微信群,特邀国内外名校教授、博士及腾讯、百度、阿里、华为等公司大咖与大家一起聊算法。快来扫码加入,点对点提问50位大咖嘉宾!

# 加入知识星球,您将收获以下福利 #

● 全球Top名校教授|博士和名企研发高管一起交流算法相关学术|研发干货

 中国你能说出名字的几乎所有大厂|欧美数家大厂(资深)算法工程师入驻

● 依托『运筹OR帷幄』30w+专业受众和25+细分领域硕博微信群的算法技术交流

● 以上所有公司|高校独家内推招聘|实习机会、多家offer选择指导

● 以面试题|作业题|业界项目为学习资料学习算法干货,从小白变成大咖

● 不定期的线上、线下交流会和聚会,拓展人脉


相关文章推荐

电影是20世纪以来出现的最受欢迎的娱乐形式,经过了100多年的发展,如今电影已经成为了人们生活不可缺少的一部分。那么这百年的电影行业发展如何?本期我们为大家带来更为全面深入的分析。

点击蓝字标题,即可阅读《数据科学 | 用大数据带你了解电影行业百年发展历程》


温馨提示

可以在 公众号后台 回复关键词:“烂片”获取文章部分代码,如果觉得有用, 请勿吝啬你的留言和赞哦!~


—— 完 ——




文章申明

Oct. 2019

文章作者:徐麟

责任编辑:疑疑

审核编辑:阿春

微信编辑:玖蓁

本文转载自公众号 数据森麟(ID:shujusenlin)

原文链接我用Python纪念了那些被烂片收割的智商税!



优质公众号推荐

击查看详情

   



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/48091
 
475 次点击