
awesome系列真是碉堡了~今天把Python的爬虫工具搬过来~
——————译文分割线——————
本列表包含Python网页抓取和数据处理相关的库。
网络相关
通用
urllib - 网络库(标准库)
requests - 网络库
grab - 网络库(基于pycurl)
pycurl - 网络库 (与libcurl绑定)
urllib3 - 具有线程安全连接池、文件psot支持、高可用的Python HTTP库
httplib2 - 网络库
RoboBrowser - 一个无需独立浏览器即可访问网页的简单、pythonic的库
MechanicalSoup - 能完成自动网站交互的Python库
mechanize - 有状态、可编程的网页浏览库。
-
socket - 底层网络接口(标准库)
Unirest for Python - 一套支持多种语言的轻量级HTTP库
hyper - Python HTTP/2客户端
PySocks - SocksiPy持续更新并维护的版本,指出bug修复和一些其他功能,可以作为socket模块的替代品
异步
网络爬虫框架
全能型爬虫
其他
HTML/XML解析
通用
lxml - 高效的HTML/XML处理库。支持XPATH,用C语言写成
cssselect - 解析DOM树和css选择器
pyquery - 解析DOM树和jQuery
选择器
BeautifulSoup - Python写成的低效HTML/XMl处理库
html5lib - 根据WHATWG规范生成HTML/ XML文档的DOM。WHATWG规范是现在浏览器的通行规范
feedparser - 解析RSS/ATOM信息流
MarkupSafe - Python的XML/HTML/XHTML安全转义字符串工具
xmltodict - 让你处理XML如同处理JSON一样
xhtml2pdf - HTML/CSS to PDF转化器
-
untangle - 讲XML文档转化为Python项目以简化处理难度
hodor - 支持lxml and cssselect的配置驱动包装工具
清理
文本处理
解析及操作文本的库
通用
difflib - 差异化计算工具(Python标准库
)
Levenshtein - 快速计算编辑距离及字符串相似度
fuzzywuzzy - 模糊字符串比匹配
esmre - 正则表达式加速器.
ftfy - 将Unicode文本自动整理减少碎片化
转换
字符编码
Slug化
awesome-slugify - 可保留Unicode的Python slugify库
python-slugify - 讲Unicode转为ASCII的Python slugify库
unicode-slugify - unicode slugs生成工具
pytils - 处理俄语字符串的小工具(包含pytils.translit.slugify)
通用解析器
人名
电话号码
用户代理字符串
python-user-agents - 浏览器用户代理解析器
HTTP Agent Parser - Python HTTP代理解析器
fake-useragent - 基于全球浏览器统计的Python用户代理欺骗器
user_agent - 用户代理数据生成器
特殊格式处理
处理特编辑特殊字符格式的库
通用
tablib - 处理XLS, CSV, JSON, YAML等表格数据的库
textract - 从任何文档中提取文本,支持Word,PowerPoint, PDF等
messytables - 杂乱的表格数据解析
rows - 支持多种格式的通用且美观的表格数据处理器(现有CSV, HTML, XLS, TXT -- 即将支持更多
)
Office
python-docx - 阅读,查询和修改Microsoft Word 2007/2008 docx文件
xlwt / xlrd - 从Excel读取及写入数据和格式化信息
XlsxWriter - 用于穿件Excel .xlsx文件的Python模块
xlwings- 一个BSD许可的库,是Excel与Python互相调用更加简单
openpyxl - 可读取、编辑Excel 2010xlsx/xlsm/xltx/xltm文件的库
Marmir - 提取Python数据结构并将其转化为表格的库
PDF
PDFMiner - 从PDF文档中提取信息的工具
PyPDF2 - 一个分割、合并、转换PDF文件的库
ReportLab - 可以快速创建大量PDF文档
pdftables - 从PDF文件中精准提取表格
Markdown
Python-Markdown - 一个用Python实现的John Gruber的Markdown
-
Mistune - 速度最快,功能全面的Markdown纯Python解析器
markdown2 - 一个完全用Python实现的快速的Markdown
YAML
CSS
ATOM/RSS
SQL
HTTP
Microformats
可移植的执行体
PSD
自然语言处理
自然语言处理库
NLTK -Python自然语言处理领先者
Pattern - Python的网络挖掘模块。他有自然语言处理工具,机器学习以及其它
TextBlob - 为深入处理自然语言的项目提供API,参考了NLTK及其他
jieba - 中文分词
SnowNLP - 汉字文本处理库
-
loso - 中文分词库
genius -基于条件随机域的中文分词
langid.py - 独立的语言识别系统
Korean - 韩文形态库
pymorphy2 - 俄语形态分析器(词性标注+词形变化引擎)
PyPLN - 用Python编写的分布式自然语言处理通道。这个项目的目标是创建一种简单的方法使用NLTK通过网络接口处理大语言库
langdetect - Python的谷歌语言检测库端口
浏览器自动化与仿真
浏览器
-
selenium - 自动化真实浏览器(Chrome, Firefox, Opera, IE)
Ghost.py - QtWebKit封装(需求PyQT)
Spynner - 具备AJAX支持的程序化网页浏览模块
Splinter - 通用API浏览器模拟器(selenium web驱动,Django客户端,Zope)
Headless工具
多进程并发
threading - Python标准库的多线程运行。因为python GIL限制,对于I/O密集型任务很有效,对于CPU绑定的任务没用
multiprocessing - 多进程标准库
celery - 基于分布式消息传递的异步任务队列/作业队列
concurrent-futures - concurrent.futures模块提供用于异步执行callable的高级接口
异步
异步网络编程库
asyncio - 异步I/O
,时间循环,协同程序和任务(Python 3.4以上版本的Python标准库)
Twisted - 基于事件驱动的网络引擎框架
Tornado - 一个Web框架及异步网络库
pulsar - Python事件驱动的并发框架
diesel - Python的基于Greenlet的I/O框架
gevent -一个基于协同程序的Python网络库,使用greenlet
eventlet- 有WSGI支持的异步框架
Tomorrow - 异步代码的魔法
队列
celery - 基于分布式消息传递的异步任务队列/作业队列
huey - 小型多线程任务队列
mrq - Mr. Queue - 使用redis &Gevent 的Python分布式工作任务队列
RQ - 基于Redis的轻量级任务队列管理器
simpleq - 一个简单的,可无限扩展,基于Amazon SQS的队列
python-gearman - Gearman的Python API
云计算
电子邮件
电子邮件处理库
URL和网络地址操作
URL
和网络地址操作库
URL
furl - 一个小的Python库,使得操纵URL简单化
purl - 一个简单的不可改变的URL以及一个干净的用于调试和操作的API
urllib.parse - 用于打破统一资源定位器(URL)的字符串在组件(寻址方案,网络位置,路径等)之间的隔断,为了结合组件到一个URL字符串,并将“相对URL”转化为一个绝对URL,称之为“基本URL”(标准库)
tldextract - 使用公共后缀列表从URL的注册域和子域中准确分离TLD
网络地址
网页内容提取
网页内容提取库
HTML页面的文本和元数据
newspaper - 用Python进行新闻提取、文章提取和内容策展
html2text - 将HTML转为Markdown格式文本
python-goose - HTML内容/文章提取器
lassie - 人性化的网页内容检索工具
-
micawber - 一个从网址中提取丰富内容的小型库
sumy -一个自动汇总文本文件和HTML网页的模块
Haul - 一个可扩展的图像爬虫
python-readability - arc90 readability工具的快速Python接口
scrapely - 从HTML网页中提取结构化数据的库。给出了一些Web页面和数据提取的示例,scrapely为所有类似的网页构建一个分析器
libextract - 从网站提取数据
视频
Wiki
WebSocket
用于WebSocket的库
Crossbar - 开源的应用消息传递路由器(Python实现的用于Autobahn的WebSocket和WAMP)
AutobahnPython - 提供了WebSocket
协议和WAMP协议的Python实现并且开源
WebSocket-for-Python - Python 2和3以及PyPy的WebSocket客户端和服务器库
DNS解析
计算机视觉
代理服务器
杂项
其他
awesome-python
pycrumbs
python-github-projects
python_reference
pythonidae
作者:地球的外星人君
来源:https://zhuanlan.zhihu.com/p/28407245
备注:所有资源均有相关链接,由于微信公众号不支持插入外链,如有需要请复制原文链接到浏览器查看
————开班喜讯————
温馨提醒:马哥教育Python自动化开发班将于8月28日在北京海淀上地开班,小班制魔鬼式授课,钜惠限时抢位中。
马哥教育2017年Python自动化运维开发实战班,马哥联合BAT、豆瓣等一线互联网Python开发达人,根据目前企业需求的Python开发人才进行了深度定制,加入了大量一线互联网公司:大众点评、饿了么、腾讯等生产环境真是项目,课程由浅入深,从Python基础到Python高级,让你融汇贯通Python基础理论,手把手教学让你具备Python自动化开发需要的前端界面开发、Web框架、大监控系统、CMDB系统、认证堡垒机、自动化流程平台六大实战能力,让你从0开始蜕变成Hold住年薪20万的Python自动化开发人才。

—
Python学习免费交流QQ群:475035830(千人群)
—
