社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪!

CSDN • 6 年前 • 549 次点击  

【CSDN 编者按】《哪吒》看哭了无数人!编者看的那场,有很多小朋友,一开始他们还被太乙真人的滑稽,逗得哈哈笑。到了哪吒成魔要杀父亲、跪别父母、因为宿命不得以和敖丙为敌时,影院里突然安静下来。

或许是编者泪点低,看着哪吒和李靖夫妇哭,自己也忍不住跟着哭。人们喜欢《哪吒》,不仅是因为它的特效,更是因为里面的亲情友情乃至师生情,是我们每个人的向往啊......

本期文章,我们特邀作者Yura爬取B站5000条视频,为你揭秘电影的更多“优秀梗”,看完还能Get新技能,赶快往下滑吧!

作者 | Yura
责编 | 胡巍巍
出品 | CSDN(ID:CSDNnews)
这个夏天,《哪吒之魔童降世》碾压其他暑期档电影,成为最强黑马。我身边的朋友,不是已经N刷了这部电影,就是在赶去N刷的路上。从票房上也可窥见一斑:
  • 上映第 1 天:89分钟,中国动画最快破1亿纪录。

  • 上映第 2 天:中国影史首部单日票房破2亿的动画电影。

  • 上映第 4 天:中国影史第66部破10亿影片!

  • 上映第 8 天:正式登顶!破16亿,超过《疯狂动物城》,创中国影史动画电影票房新纪录!

  • 截止今日《哪吒之魔童降世》的票房已经突破了33亿啦!预测票房达44亿!

我和朋友在前几天也去电影院支持了一下,当初只觉得国漫不容易,支持一下吧。看完之后觉得,国漫做到这样的剧情、特效、音乐,是真的很不容易!
这部影片制作过程历时5年,磨合了66个版本,共有1800多个镜头,还包含1400多个特效镜头。饺子导演,respect!
同样值得Respect的还有B站UP主们,动漫属性极强的B站在电影上映之后涌现了大量的相关视频。
搜索“哪吒之魔童降世”可以看到视频信息,今天我就来爬一爬,看看B站UP主们是如何对这部优秀的作品进行再创新的。

数据爬取

在浏览器开发者模式CTRL+F很容易就能找到所需要的信息,就在页面源码中:
因此我们用beautifulsoup库就能快速方便地获取想要的信息啦。
因为B站视频数量有限定,每次搜索只能显示20条*50页=1000个视频信息。
为了尽可能多的获取视频信息,我另外还选了“最多点击”“最新发布”“最多弹幕”和“最多收藏”4个选项。
  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=totalrank&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=click&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=stow&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=dm&duration=0&tids_1=0&page={}

  • http://search.bilibili.com/all?keyword=哪吒之魔童降世&from_source=nav_search&order=pubdate&duration=0&tids_1=0&page={}

5个URL,一共爬取5000条视频,去重之后还剩下2388条信息。
为了得到“转评赞”数据,我还以视频id里面的数字(去掉“av”)为索引,遍历访问了每个视频页面获取了更详细的数据,最终得到以下字段:
在后续划词云的时候还爬取了部分视频的弹幕详情,具体爬取过程和思路可以在我的另一篇文章中看(https://mp.weixin.qq.com/s/6IQO5nVy22qg73kIzCmHvw),但是我最近发现firefox也不显示弹幕页面cookie信息了,于是我尝试使用了B站其他页面的cookie,居然成了~


数据分析

电影在7月18、19日就进行了全国范围的点映,正式上映时间为7月26日,在这之后相关视频数量有明显的上升。
在这时间之前的,最早发布时间可以追溯到2018年11月份,大部分都是预告类视频:
在8月7日之后视频数量猛增,单单8月7日一天就新上传了319个相关视频。
从标题名字中我们可以大致了解视频的内容:
毫无疑问,“哪吒”和“敖丙”作为影片两大主角是视频的主要人物;因为他们同生共患难的情谊,“藕饼”(“哪吒+敖丙”组合)也是视频的关键词;除此之外,“国漫”也是一大主题词,毕竟我们这次是真正地被我们的国产动漫震撼到了。
从视频分类来看,我们发现“影视剪辑”“国产原创相关”和“绘画”是三个主要类型,占据了总视频的40%以上。看了几个绘画类型的视频,我理解了什么叫做“高手在人间”。
图取自UP主:Save菇菇菇菇菇菇菇菇 
传送门:https://www.bilibili.com/video/av60131700
超过一半的视频时长都在3分钟之内,但是也有些视频长达2个小时多,长视频大部分都是一些教学类视频(绘画、建模等)。大家都说喜欢在B站上学习,免费还无广告,诚不欺我。
那这么多视频到底质量怎么样,不能仅凭我一人之言,看看有雪亮眼睛的观众是怎么反馈的👇
注:横坐标代表点赞数量,纵坐标代表收藏数量,气泡大小表示金币数量。
从明显的线性规律和从左到右逐渐变大的气泡可看出,大家深谙“一条龙”服务定理(点赞+收藏+投币),上道儿~
右上角那个特别突出的视频是《戏腔燃炸了!哪吒原创曲《我命不由天》(古风MV付)哪吒之魔童降世》,是由一个三人团队创作的原创曲目,观看数159w+,点赞超过1我命w,收藏12w+,投币14w!表演者居然把尤克里里弹出琵琶的感觉,果然是才华限制了我的想象力。
刚刚是全局观看,那么细分种类的话,大家都偏好哪种类型的视频呢?
注:TGI:即Target Group Index(目标群体指数),可反映目标群体在特定研究范围内的强势或弱势,超过100即表示特征明显。本次计算公式(以金币数TGI为例)=某一类型视频金币总数占比/该类型视频数量占比
按照金币数TGI排序,我们发现“原创音乐”以1551的超高指数占据榜首,“趣味科普人文”虽然视频数量占比不高,但是用户的投币数量还是很可观的。
排名第三的“单机游戏”,我开始还一脸懵,这电影和游戏也能扯上关系?
直到我打开视频之后,那些用“模拟人生”“我的世界”做出来的如同电影般的画面,我…膝盖不保。怎么着?神仙也上B站?
图取自UP主:白小久丶
传送门:https://www.bilibili.com/video/av61606846
弹幕数量最多的视频是《【哔哔Q第3期】哪吒续作预定?打破成见,做自己的英雄!》,这是关于影片导演饺子的一段采访,从大家的弹幕里面可以看出大家对这部电影的看法:
哪吒可爱敖丙(饼)帅不用多说,“加油”“期待”表达了观众对导演的鼓励。
视频中导演饺子非常谦虚,说“觉得我们现在还不配得到那么多粉丝”,满屏“配”字表明了大家最硬核的支持。


最后的最后

看完了这部电影,大家都有一种“国漫崛起”的感慨。
除了是观众的福利,我觉得这更是对中国千千万万艺术创作者的鼓励。
打造中国自己的封神宇宙,我们已经迈出了第一步啦。
源码:https://github.com/PengYura/Bilibli-
作者:Yura,计算机科学与技术专业毕业生,因在澳洲交换学习接触了大数据,甚感兴趣。遂开公众号“Yura不说数据说”督促自己学习数据分析!欢迎大家关注我的个人公众号,一起(监督我)学习。

【END】

 热 文 推 荐 

Zend 创始人欲创建 PHP 方言,暂名为 P++;鸿蒙 OS 面世;中国首个开源协议诞生 | 开发者周刊

拿来就能用!去哪儿网消息中间件 QMQ 详解 | 技术头条

面向对象编程之兴衰

☞沃尔玛也要发币了,Libra忙活半天为他人做了嫁衣?

☞华为高通5G华山论剑,一文看懂5G芯片背后的明争暗斗

☞Python 爬取 B 站 5000 条视频,揭秘为何千万人为它流泪

☞自然语言处理十问!独家福利

☞七夕大礼包:26个AI学习资源送给你!

☞痛!为什么说李彦宏无法拯救百度?

你点的每个“在看”,我都认真当成了喜欢
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/37499
 
549 次点击