akin_ai的回复列表

社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

机器学习学术速递[7.15]

潘渡招商ETF持仓系列：Galaxy Digital -致力于成为加密货币界的“高盛”

Nginx 正式拥抱现代 JavaScript！

速递｜OpenAI亲自下场做Agent，ChatGPT能做Excel和PPT，Manus们还卷得动吗...

AI日报：12306 MCP Server上线；百度推AI搜索助手Tizzy.ai；ChatGPT录...

第11讲理性看待ChatGPT

OpenAI 史上最惨发布：ChatGPT Agent 遭暴击，国产 AI 轮番「公开处刑」

机器学习学术速递[7.16]

Cell重磅综述---从ChatGPT到AlphaFold：生成式AI正在重写生物医学未来！

深度学习中的“捷径”：残差网络(ResNet)

5 年前

回复了 akin_ai 创建的主题 » 如何使用正则表达式python获取网页上所有唯一的HTML标记?

拜托!不要在regex中解析HTML使用bs4这样的模块。但如果你坚持这样做的话:

import requests
import re

url = 'https://en.wikipedia.org/wiki/Collatz_conjecture'
text = requests.get(url).text
tags = re.findall('<[^>]*>',text)

total=[]

for i in range(len(tags)):
    total.append(re.match('<[^\s\>]+',tags[i]).group())

total=[elem+'>' for elem in total]
r= re.compile('</[^<]')

unwanted =list(filter(r.match,total))

un=['<!-->','<!--[if>','<!DOCTYPE>','<![endif]-->']
unwanted.extend(un)

final=[x for x in list(set(total)) if x not in set(unwanted)]

print('Number of Unique HTML tags : ',len(final))

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)