其实用reuqests库可以完成此工作,本例将该部分改为:
一个人自学很有可能因为动力不足而中途放弃,可以尝试加入一个或几个适合自己的网络群体(QQ、 微信、 社区等),寻找志同道合的学习伙伴,相互交流、相互促进.如果大家想要学习交流欢迎给我私信,私信关键词: 01.02.03.04 都会得到不一样的资料!系统坚持到关键词会自动发送。分开发送!01或者02
1、找到职位链接
为了得到更加详细的职位信息,我们要找到职位链接,在新的页面中寻找数据。上篇文章中我们没有解析职位链接,那再来找一下吧:
3、解析职位详细信息
3.1 网页解析
第一步已经将职位地址找到,在浏览器打开之后我们要找到如下几项数据:
在开发者工具中查找这几项数据,如下图所示:
HTML结构如下所示:
本次我们将职位描述写入txt文件,其余信息写入csv文件。
csv文件采用逐行写入的方式这样也可以省点内存,修改write_csv_rows函数:
生成效果图如下:
从图中可以看出工资分布的情况,这样在你找工作时可以做一个参考。
4.2.1 读取txt文件
前面已经将职位描述保存到txt文件里了,现在我们将其读出:
可以看出,某些词语还是影响了统计结果,我将以下stop word加入stopword.txt中:
开发、熟悉、熟练、精通、经验、工作、负责、能力、有限、相关、岗位职责、任职、语言、平台、参与、优先、技术、学习、产品、公司、熟练掌握、以上学历
最后运行结果如下:
运行效果图如下(左图为原图,右图为生成的图片):
至此,词频统计及其可视化完成。