《觉醒年代》通吃多省市高考作文？Python分析5.8w+影评看看观众怎么说

作者：志斌

来源：志斌的python笔记

这几天，《觉醒年代》这部剧可谓是再次冲上热搜，因为它的剧情竟然通吃了许多省市的高考语文作文！这可真是谁看了这部剧，就真的偷偷乐了！

上豆瓣上搜了一下这部剧，发现它的评分是9.3分，在打分极其严格的豆瓣上竟然能得9.3分，那这部剧一定是一部非常经典的剧！

本文通过爬取《觉醒年代》豆瓣短评，进行数据可视化分析，来看看网友们是如何评价这部神剧的。

数据采集

在之前的文章我们已经做过很多爬虫的讲解，本文我们不重点去细说原理（需要的小伙伴可以公众号内搜索之前的爬虫教程和案例），直接展示爬虫核心代码：

for page in range(80):
  try:

      params = (

          ('start', str(page * 20)),
          ('limit', '20'),
          ('status', 'P'),
          ('sort', 'new_score'),
          ('comments_only', '1'


    
),
          ('ck', 'qN8_'),
      )

      r = requests.get('https://movie.douban.com/subject/32493124/comments', headers=headers, params=params, cookies=cookies)
      yonghumingchengs = re.findall('', r.json()['html'], re.S)
      youyongshus = re.findall('(.*?)', r.json()['html'], re.S)
      pinglunshijians = re.findall('', r.json()['html'], re.S)
      pingluns = re.findall('(.*?)', r.json()['html'], re.S)
      for i in range(20):
          a = a + 1
          sheet.append([yonghumingchengs[i], youyongshus[i], pinglunshijians[i].split()[0].split("-")[-1],
                        pinglunshijians[i].split()[1].split(":")[0], pingluns[i]])
      print(f"已爬取完第{page}页数据,存入{i + 1}条数据....")
  except:
      wb.save("全部.xlsx")
      print(f"共爬取{page}页数据，存入{a}条数据....")

数据清洗

合并Excel

因为是分全部、好评、一般、差评四个部分来对影评进行爬取的，所以我们要对这四个影评文件夹进行合并。代码如下：

for i in files:
  wb = openpyxl.load_workbook(i)
  sheet = wb['豆瓣评论']
  for i in range(2,502):
      A_cell = sheet[f'A{i}']
      B_cell = sheet[f'B{i}']
      C_cell = sheet[f'C{i}']
      D_cell = sheet[f'D{i}']
      E_cell = sheet[f'E{i}']
      a = [A_cell.value,int(B_cell.value),int(C_cell.value),int(D_cell.value),E_cell.value]
      sheet_1.append(a)

导入评论数据

用pandas读取合并后的影评数据并预览。

df = pd.read_excel('全部.xlsx',names=['用户名称','点赞数','评论日期','评论时间','评论内容'])
print(df.head())

查看数据类型

查看字段类型和缺失值情况，符合分析需要，无需另做处理。

df.info()

可视化分析

我们现在对爬取的短评数据来进行可视化分析。

各类评论占比

这部剧有5.8w+的短评，竟然好评占到了97%，真不愧是在豆瓣上都能得到9.3分的神剧！没刷的小伙伴，赶紧抽空刷起来！

主演提及次数

这部电视剧中，我选出了六位大家较为熟悉的人物，来看他们的提及次数，其中陈独秀先生的提及次数最多是214，其次是鲁迅先生和李大钊先生，分别是113和111。

这也很符合电视剧的剧情背景，那个年代陈独秀先生、鲁迅先生和李大钊先生的思想确实走在前列！

那让我们来看看大家在影评中都是怎么评价陈独秀先生的。

各类星级占比

从图中我们可以看出，有75.3%的观众给这部剧打了5星，19.3%的观众打了4星，打1星和2星的观众加起来才1.7%。这样看来观众是真的十分肯定这部电视剧！

评论发表时间分布

从图中我们可以看出，大部分影评发表时间在21点-次日0点，看来大部分的观众观影时间是在夜晚，可能是因为电视播放在这个时间段的缘故。

小结

本文仅供学习研究使用，提供的评论仅供参考，勿做商业用途。本人对影视的了解有限，言论粗糙，还请勿怪。

如果文章对你有帮助，欢迎转发/点赞/收藏~

获取文中相关代码，请在后台回复关键词：觉醒