社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

机器学习学术速递[7.15]

潘渡招商ETF持仓系列：Galaxy Digital -致力于成为加密货币界的“高盛”

Nginx 正式拥抱现代 JavaScript！

速递｜OpenAI亲自下场做Agent，ChatGPT能做Excel和PPT，Manus们还卷得动吗...

AI日报：12306 MCP Server上线；百度推AI搜索助手Tizzy.ai；ChatGPT录...

OpenAI 史上最惨发布：ChatGPT Agent 遭暴击，国产 AI 轮番「公开处刑」

机器学习学术速递[7.16]

深度学习中的“捷径”：残差网络(ResNet)

Cell重磅综述---从ChatGPT到AlphaFold：生成式AI正在重写生物医学未来！

GIS学习者福音：ArcGIS Pro 3.5中文版（含数据转换和深度学习模块）安装指南+视频教程，...

关注

Py学习 » Python

如何使用正则表达式python获取网页上所有唯一的HTML标记?

justanothercoder • 5 年前 • 2115 次点击

我对Python和scraping网页还很陌生。我有一个html页面的html源代码:

import requests
text =
requests.get("https://en.wikipedia.org/wiki/Collatz_conjecture").text

我想做的是计算这个页面上唯一的HTML标记的数量。例如:。结束标记不计数(并且只计数一次)

是的,我知道使用诸如beautifuldsoup这样的HTML解析器会容易得多,但是我希望只使用正则表达式来实现这一点。

我已经用蛮力计算过了,答案大概是60个独特的标签。我该怎么做呢?

我已经试过使用re.findall(),但没有用。

'''

网站链接: https://en.wikipedia.org/wiki/Collatz_conjecture

'''

因为答案是60左右,我希望输出是

“唯一HTML标记数:60”

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/50698

2115 次点击

文章 [ 2 ] | 最新文章 5 年前

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)