Py学习  »  Python

有关Python爬虫,看这几本书就够了!

程序员书库 • 2 年前 • 283 次点击  

开源最前线(ID:OpenSourceTop) 猿妹编译

链接:https://computingforgeeks.com/top-books-to-help-you-master-web-scraping/


网页抓取就是从网站中提取数据,因为有很多网站,已经有很多开发工具可以用来浏览网站(web爬行)寻找特定的数据片段并自动收集它们(web抓取)。收集到的数据大多是非结构化的HTML形式,之后再将其转化为结构化数据,例如电子表格或者某种形式的数据库,以便能够对这些数据加以利用。

这些信息对于那些希望了解趋势的公司或寻找他们感兴趣的特定信息的组织来说是非常宝贵的。因此爬虫技术是一门非常受欢迎的技术,今天我们将和大家推荐一些有关数据爬取的好书:


1、《Python Automation Cookbook》



本书的作者是一名全职Python开发人员,并经常在PyCon Ireland发表演讲,他已经做了20多年的专业程序员,在他的职业生涯中接触过许多不同的技术,因此,通过这本书将使你深刻地理解任务自动化的基础知识,例如开发你的第一个Web抓取应用程序、分析信息并生成带有图表的电子表格报告,以及与自动生成的电子邮件进行通信。

一旦掌握了基础知识,你 还将学习如何使用Matplotlib创建令人惊叹的图形和图表,生成包含相关信息的丰富图形,自动化营销活动,构建机器学习项目,并执行调试技术。


2、《Practical Web Scraping for Data Science》



是由数据领域的教授Seppe vanden Broucke和Bart Baesens写的,这本书提供了一个完整和现代的Web抓取指南,使用Python作为编程语言,没有漏掉任何重要的细节或最佳实践,这本书是为数据科学专业的读者准备的。


3、《Python网络数据采集》



本书的作者Ryan Mitchell是波士顿LinkeDrive的软件工程师,她在那里开发他们的API和数据分析工具。这本实用书的扩展版不仅向你介绍了网络抓取,而且作为一个全面的指南,可以从现代网络上抓取几乎所有类型的数据。

第一部分主要关注Web抓取机制:使用Python从Web服务器请求信息,执行服务器响应的基本处理,并以自动化的方式与站点交互。第二部分探讨了各种更具体的工具和应用程序,方便你应用到任何web抓取场景。


4、《利用Python进行数据分析(原书第2版)》



这本书由Python pandas项目的创建者Wes McKinney编写,是用Python介绍数据科学工具的实用书籍,本书的目标是为Python编程语言的各个部分及其面向数据的库生态系统和工具提供指导,让你成为一名优秀的数据分析师,对于刚接触Python的分析师和刚接触数据科学和科学计算的Python程序员来说,它是理想的选择。


5、《Python编程快速上手(第2版)》



作者Al Sweigart是一名居住在旧金山的软件开发人员和科技书籍作者。在这本书中你将学习如何使用Python编写程序,这些程序在几分钟内就能完成手工完成的工作,而不需要你具备任何编程经验。你将从头开始学习Python的基础知识,并探索Python用于执行特定任务的丰富模块库,如从网站上抓取数据,阅读PDF和Word文档,以及自动点击和键入任务。


--- EOF ---


推荐↓↓↓


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/116224
 
283 次点击