Py学习  »  Python

小伙用Python爬取3000条B站视频,发现刘华强买瓜是这么火起来的!

凹凸数据 • 2 年前 • 836 次点击  

大家好,我是小五🧐

最近B站这两个月,快被买瓜的刘华强屠版了,上一个这么火的人物,应该还是闪电五连鞭的马保国

与之前的网络“审丑”视频不同,这次火的片段来自一部影视作品。

孙红雷在2003年主演的电视剧《征服》中,饰演一位名叫刘华强的黑帮老大,在一次买瓜的过程中他和商贩发生了争执,刘华强便一刀捅伤了瓜摊老板。

作为鬼畜区的资深爱好者,小五今天就用数据探究一下:刘华强买瓜什么时候火的?火成什么样?为什么这么火?

什么时候火的?

目前可以统计到的数据,刘华强买瓜相关的B站投稿视频已达数千条。

那么,究竟是什么时候开始成为一个爆款热点视频素材的呢?

数据获取

由于涉及数据采集,我们还是要搬出来老Python。

def get_videos(key_word, page_num):
    url = f'https://search.bilibili.com/video?keyword={key_word}&from_source=web_search&page={page_num}'
    
    r = requests.get(url, headers=headers, timeout=3)

    html = parsel.Selector(r.text)

    title = html.xpath('//li[@class="video-item matrix"]/a/@title').extract()
    upload_time = [i.strip() for i in html.xpath('//li[@class="video-item matrix"]//span[@title="上传时间"]/text()').extract()]
    view_num = [i.strip() for i in html.xpath('//li[@class="video-item matrix"]//span[@title="观看"]/text()').extract()]
    up_author = html.xpath('//li[@class="video-item matrix"]//span[@title="up主"]//a/text()').extract()
    video_url = html.xpath('//li[@class="video-item matrix"]/a/@href').extract()

爬取B站的视频数据:分别采集“刘华强”、“刘华强买瓜”等关键词在各个分区的投稿视频数据。

成功得到3000条数据,去重后是2659条bilibili视频投稿信息。

为了方便后续作图,还进行了一步数据处理,将播放量中的“万”转成数字。

下面,我们将依赖这2000条视频数据,来探究“刘华强买瓜”是怎么火起来的。

投稿视频

通过绘制每日视频发布数量的时间走势,可以发现

第一个高峰出现在7月16日,当天出现了25个相关投稿,明显高于前一天的5条视频。

# 柱形图
bar1 = Bar(init_opts=opts.InitOpts(width='1000px', height='600px'))
bar1.add_xaxis(time_num.index.tolist()) 
bar1.add_yaxis('', time_num.values.tolist()) 
bar1.set_global_opts(title_opts=opts.TitleOpts(title="当日发布视频的数量", subtitle="时间走势"), 
                     visualmap_opts=opts.VisualMapOpts(max_=77),
                    )
bar1.render_notebook() 

那么,“刘华强买瓜”是在7月16日火起来的吗?

大概率不是。

当创作者们发现某个视频的素材非常有趣,再纷纷进行二创(蹭热点),肯定是要花一定时间的。

那么如何能找得最早引爆B站买瓜的视频呢?

这时,我想到了另一个方向——视频播放量。

播放量

改变方向,重新汇总每日投稿视频的总播放量,绘制折线图。

这次就很明显了,在7月14日总播放量达到810w,而之前的视频没有播放超过20w的。

那么,这个“引爆视频”作品就就是发布在——7月14日

根据这个结果,我轻松找到了买瓜大队的“罪魁祸首”——【诚信商家】。

这样,第一个谜题就解开了,刘华强买瓜是在7月14日火起来的!

火成什么样?

探究完了什么时候火的,再来看看买瓜视频火成什么样了?

哪些up主又贡献了哪些优质的二创视频?

我按照播放量,制作了一张条形图。

TOP10中,【⚡萨 日 朗!!!⚡】名列前茅,播放量达到了2300w播放量,可见有多火!前文刚刚提到的,【诚信商家】也在其中,排名第10。

这些视频超级有趣,各位up主们脑洞都超级大:

在【买瓜大队】中刘华强一人买瓜可能有些寂寞,于是叫上了好几个同伙一起过来---祝瓜摊老板平安!

买瓜大队

奥运期间,结合时事。水果忍者男单决赛,刘华强不负众望拿下金牌!

刘华强不负众望拿下金牌

【无 伤 反 杀 刘 华 强】中,技术大佬把刘华强改成钢铁侠,凭借修改器还是成功“反杀”刘华强。

无 伤 反 杀 刘 华 强

在「误导向」感人短片 【下 岗 工 人 刘 华 强】中,刘华强和瓜摊老板首次和解,共同演绎《杀死那个石家庄人》。

下 岗 工 人 刘 华 强

用一张假钞,买一个生瓜,如此生活30年,直到大厦崩塌。

为什么火?

我们已经了解到了,刘华强买瓜什么时候火的、火成什么样?那么为什么这么火,我决定去弹幕里找找答案!

不过当日弹幕只有300多条,不够爽

于是我再次拿起了Python,把最近30天的历史弹幕也爬了下来。

url = f'https://api.bilibili.com/x/v2/dm/web/history/seg.so?type=1&oid={oid_num}&date={danmu_date}'

按照被刘华强劈过的西瓜形状,制作了一张词云图👇

解释一下,其中词频最多的kksk,是一种弹幕语言,是日语ここ好き的罗马音ko ko SU KI的缩写,意思是喜欢这里,目前鬼畜区里这类弹幕比较多(yyds已经被批了,这里就不展开讨论了)。

再去除上头、每天一遍等常见词,其他的弹幕是什么呢?

很明显,是台词空耳!!!

台词空耳
生意行啊你们哥俩生异形啊你们哥俩
你嫌贵我还嫌贵呢你贤惠我还贤惠呢
杀人啦!杀人啦!萨日朗!章鱼哥!
卧槽What's up

B站的鬼畜区的素材,要么来自时事,要么从广为人知的视频片段中选取。

通过前文,我们也了解到,虽然【刘华强买瓜】的爆火开始与7月14日,但在此之前仍然有很多视频在发。所以刘华强买瓜的电视剧片段是有广泛的群众基础的,这也是成为鬼畜素材的重要一环!

二来就是如弹幕词云中所表现,视频片段仅仅3分钟,但台词却有充足的空耳空间来发挥。

所以个人拙见,以上正是【刘华强买瓜】为什么火的原因。

相较之下,最近鬼畜新贵——东北黑帮张学姐,发挥空间就不如华强买瓜。

好啦,我是小五

如果觉得今天的文章比较有趣的话,就给右下角点个👍吧~~~

数据&代码下载

需要本文数据和代码的朋友,可以在公众号【凹凸数据】后台回复“刘华强”即可。



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/119578
 
836 次点击  
文章 [ 1 ]  |  最新文章 2 年前