Beautiful Soup，一个好用的HTML/XML的解析器

Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器，它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于不规则的 Html文档，也有很多的补全功能，节省了开发者的时间和精力。

这里以Beautiful Soup3.0为例，说明Beautiful Soup的简单用法。

下载：

http://www.crummy.com/software/BeautifulSoup/#Download

安装：

python setup.py install

导入Beautiful Soup库：

from BeautifulSoup import BeautifulSoup              # HTML
from BeautifulSoup import BeautifulStoneSoup         # XML
import BeautifulSoup                                 # Everything

首先读取内容

import urllib2
url = 'http://xxx.com'
html = urllib2.urlopen(url)
text = html.read()

生成soup

soup = BeautifulStoneSoup(text)

找node的两种方式

data = soup.findAll("p", {"class" : "right"})
# 寻找所有<p class="right"></p>，返回一个list

data = soup.findAll(id="xxx")
# 寻找所有<yy id = "xxx"></yy>，返回一个list

获取node的内容

data.string

更多请看官方文档：

英文版中文版

[精华] Beautiful Soup，一个好用的HTML/XML的解析器