Py学习  »  Python

如何使用正则表达式python获取网页上所有唯一的HTML标记?

justanothercoder • 5 年前 • 2115 次点击  

我对Python和scraping网页还很陌生。我有一个html页面的html源代码:

import requests
text =
requests.get("https://en.wikipedia.org/wiki/Collatz_conjecture").text

我想做的是计算这个页面上唯一的HTML标记的数量。例如:。结束标记不计数(并且只计数一次)

是的,我知道使用诸如beautifuldsoup这样的HTML解析器会容易得多,但是我希望只使用正则表达式来实现这一点。

我已经用蛮力计算过了,答案大概是60个独特的标签。 我该怎么做呢?

我已经试过使用re.findall(),但没有用。

'''

网站链接: https://en.wikipedia.org/wiki/Collatz_conjecture

'''

因为答案是60左右,我希望输出是

“唯一HTML标记数:60”

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/50698
 
2115 次点击  
文章 [ 2 ]  |  最新文章 5 年前