社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python3爬取B站视频弹幕【文字+视频】

python • 7 年前 • 476 次点击  

需要准备的环境:


1、一个B站账号,需要先登录,否则不能查看历史弹幕记录

2、联网的电脑和顺手的浏览器,我用的Chrome

3、Python3环境以及request模块,安装使用命令,换源比较快:

pip3 install  request -i http://pypi.douban.com/simple 

爬取步骤:

1.登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求 

2.点击查看历史弹幕,获取请求 

其中rolldate后面的数字表示该视频对应的弹幕号,返回的数据中timestamp表示弹幕日期,new表示数目


4.在查看历史弹幕中任选一天,查看,会发出新的请求

dmroll ,时间戳,弹幕号,表示获取该日期的弹幕,1507564800 表示2017/10/10 0:0:0


该请求返回xml数据

5.使用正则表达式获取所有弹幕消息,匹配模式

'(.*?)'  

6.拼接字符串,将所有弹幕保存到本地文件即可

with open('content.txt', mode='w+', encoding='utf8') as f:    f.write(content) 

7.参考代码如下,将弹幕按照日期保存为单个文件...因为太多了...

8.最终效果


视频讲解


作者:阿豪boy

源自:developer.51cto.com/art/201801/562684.htm

声明:文章著作权归作者所有,如有侵权,请联系小编删除




今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/mDNsWWayfI
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/5066
 
476 次点击