Py学习  »  Python

利用Python爬职位信息的很多文章!但是像这篇这么详细的你见过吗

Python学习交流 • 5 年前 • 548 次点击  

其实用reuqests库可以完成此工作,本例将该部分改为:

一个人自学很有可能因为动力不足而中途放弃,可以尝试加入一个或几个适合自己的网络群体(QQ、 微信、 社区等),寻找志同道合的学习伙伴,相互交流、相互促进.如果大家想要学习交流欢迎给我私信,私信关键词: 01.02.03.04 都会得到不一样的资料!系统坚持到关键词会自动发送。分开发送!01或者02

1、找到职位链接

为了得到更加详细的职位信息,我们要找到职位链接,在新的页面中寻找数据。上篇文章中我们没有解析职位链接,那再来找一下吧:

3、解析职位详细信息

3.1 网页解析

第一步已经将职位地址找到,在浏览器打开之后我们要找到如下几项数据:

在开发者工具中查找这几项数据,如下图所示:

HTML结构如下所示:

本次我们将职位描述写入txt文件,其余信息写入csv文件。

csv文件采用逐行写入的方式这样也可以省点内存,修改write_csv_rows函数:

生成效果图如下:

从图中可以看出工资分布的情况,这样在你找工作时可以做一个参考。

4.2.1 读取txt文件

前面已经将职位描述保存到txt文件里了,现在我们将其读出:

可以看出,某些词语还是影响了统计结果,我将以下stop word加入stopword.txt中:

开发、熟悉、熟练、精通、经验、工作、负责、能力、有限、相关、岗位职责、任职、语言、平台、参与、优先、技术、学习、产品、公司、熟练掌握、以上学历

最后运行结果如下:

运行效果图如下(左图为原图,右图为生成的图片):

至此,词频统计及其可视化完成。



今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/WVk7AqcMmP
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/11466
 
548 次点击