社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

《觉醒年代》通吃多省市高考作文?Python分析5.8w+影评看看观众怎么说

CDA数据分析师 • 4 年前 • 439 次点击  

作者:志斌

来源:志斌的python笔记


这几天,《觉醒年代》这部剧可谓是再次冲上热搜,因为它的剧情竟然通吃了许多省市的高考语文作文!这可真是谁看了这部剧,就真的偷偷乐了!


上豆瓣上搜了一下这部剧,发现它的评分是9.3分,在打分极其严格的豆瓣上竟然能得9.3分,那这部剧一定是一部非常经典的剧!


本文通过爬取《觉醒年代》豆瓣短评,进行数据可视化分析,来看看网友们是如何评价这部神剧的。


01

数据采集


在之前的文章我们已经做过很多爬虫的讲解,本文我们不重点去细说原理(需要的小伙伴可以公众号内搜索之前的爬虫教程和案例)直接展示爬虫核心代码:

for page in range(80):
try:

params = (

('start', str(page * 20)),
('limit', '20'),
('status', 'P'),
('sort', 'new_score'),
('comments_only', '1' ),
('ck', 'qN8_'),
)

r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)
yonghumingchengs = re.findall('', r.json()['html'], re.S)
youyongshus = re.findall('(.*?)', r.json()['html'], re.S)
pinglunshijians = re.findall('', r.json()['html'], re.S)
pingluns = re.findall('(.*?)', r.json()['html'], re.S)
for i in range(20):
a = a + 1
sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],
pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])
print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")
except:
wb.save("全部.xlsx")
print(f"共爬取{page}页数据,存入{a}条数据....")




02

数据清洗


01

 合并Excel


因为是分全部、好评、一般、差评四个部分来对影评进行爬取的,所以我们要对这四个影评文件夹进行合并。代码如下:

for i in files:
wb = openpyxl.load_workbook(i)
sheet = wb['豆瓣评论']
for i in range(2,502):
A_cell = sheet[f'A{i}']
B_cell = sheet[f'B{i}']
C_cell = sheet[f'C{i}']
D_cell = sheet[f'D{i}']
E_cell = sheet[f'E{i}']
a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]
sheet_1.append(a)


02

 导入评论数据


用pandas读取合并后的影评数据并预览。


df = pd.read_excel('全部.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())


03

 查看数据类型


查看字段类型和缺失值情况,符合分析需要,无需另做处理。


df.info()




03

可视化分析


我们现在对爬取的短评数据来进行可视化分析。


01

 各类评论占比



这部剧有5.8w+的短评,竟然好评占到了97%,真不愧是在豆瓣上都能得到9.3分的神剧!没刷的小伙伴,赶紧抽空刷起来!


02

 主演提及次数



这部电视剧中,我选出了六位大家较为熟悉的人物,来看他们的提及次数,其中陈独秀先生的提及次数最多是214,其次是鲁迅先生和李大钊先生,分别是113和111。


这也很符合电视剧的剧情背景,那个年代陈独秀先生、鲁迅先生和李大钊先生的思想确实走在前列!


那让我们来看看大家在影评中都是怎么评价陈独秀先生的。

03

 各类星级占比



从图中我们可以看出,有75.3%的观众给这部剧打了5星,19.3%的观众打了4星,打1星和2星的观众加起来才1.7%。这样看来观众是真的十分肯定这部电视剧!


04

 评论发表时间分布



从图中我们可以看出,大部分影评发表时间在21点-次日0点,看来大部分的观众观影时间是在夜晚,可能是因为电视播放在这个时间段的缘故。


04

小结


本文仅供学习研究使用,提供的评论仅供参考,勿做商业用途。人对影视的了解有限,言论粗糙,还请勿怪。


如果文章对你有帮助,欢迎转发/点赞/收藏~


获取文中相关代码,请在后台回复关键词:觉醒


 

推荐阅读


 

CDA课程咨询

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/115471
 
439 次点击