Py学习  »  Python

[精华] Beautiful Soup,一个好用的HTML/XML的解析器

易冷天涯 • 10 年前 • 5529 次点击  

Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。

这里以Beautiful Soup3.0为例,说明Beautiful Soup的简单用法。

下载:

http://www.crummy.com/software/BeautifulSoup/#Download

安装:

python setup.py install

导入Beautiful Soup库:

from BeautifulSoup import BeautifulSoup              # HTML
from BeautifulSoup import BeautifulStoneSoup         # XML
import BeautifulSoup                                 # Everything

首先读取内容

import urllib2
url = 'http://xxx.com'
html = urllib2.urlopen(url)
text = html.read()

生成soup

soup = BeautifulStoneSoup(text)

找node的两种方式

data = soup.findAll("p", {"class" : "right"})
# 寻找所有<p class="right"></p>,返回一个list

data = soup.findAll(id="xxx")
# 寻找所有<yy id = "xxx"></yy>,返回一个list

获取node的内容

data.string

更多请看官方文档:

英文版 中文版

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/215
 
5529 次点击  
文章 [ 1 ]  |  最新文章 10 年前
Py站长
Reply   •   1 楼
Py站长    10 年前

感觉分享啊,类似JQuery哦