社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

Github 今日推荐 WebGL2神技！deck.gl：秒渲海量数据的可视化神器"

Nginx和Apache要成旧爱了？PHP有了新搭档：缝合怪FrankenPHP！

ChatGPT化身生活操作系统：奥特曼预告下一代顶级AI

西南交通大学张云辉团队JH｜利用无监督机器学习和正定矩阵因子分解模型驱动煤矿农业区域的地下水化学成因...

多邻国联姻瑞幸；if椰子水母企IPO市值冲上100亿；阿里巴巴美国站推B2B先买后付 | TopDi...

ChatGPT惨败Llama！MIT官宣AI开飞船0%失败率，马斯克火星殖民不再是梦

Altman嘲讽小扎挖走的都不是顶尖人才！OpenAI高管再营业曝内幕：ChatGPT爆红后，我火速...

ChatGPT 4o 国内直接用！

马斯克公布脑机接口重大进展：受试者增至7人，未来有望控制人形机器人；扎克伯格又从OpenAI挖走四位...

国产动漫，迎来ChatGPT时刻！

私信 • 关注

Philip

Philip 最近创建的主题

是否可以在django url中发送参数并在加载页面的javascript中使用它

Django • Philip • 5 年前

» Philip 创建的更多主题

Philip 最近回复了

12 年前

回复了 Philip 创建的主题 » Python删除字符串开始和结束处出现的任何非字母表[重复]

通过您的两个示例,我可以使用Python的非贪婪语法创建regex,如前所述 here

1:[123]   2:[foo]   3:[456]
1:[2]   2:[foo1c#BAR]   3:[]

下面是正则表达式:

^([^A-Za-z]*)(.*?)([^A-Za-z]*)$

mo.group(2) 你想要什么,在哪里 mo

5 年前

回复了 Philip 创建的主题 » 如何使用正则表达式python获取网页上所有唯一的HTML标记?

下面将从所讨论的URL中得到63个URL

import requests
import re

url = "https://en.wikipedia.org/wiki/Collatz_conjecture"
text = requests.get(url).text

url_pattern = r"((http(s)?://)([\w-]+\.)+[\w-]+[.com]+([\w\-\.,@?^=%&amp;:/~\+#]*[\w\-\@?^=%&amp;/~\+#])?)"

# Get all matching patterns of url_pattern
# this will return a list of tuples 
# where we are only interested in the first item of the tuple
urls = re.findall(url_pattern, text)

# using list comprehension to get the first item of the tuple, 
# and the set function to filter out duplicates
unique_urls = set([x[0] for x in urls])
print(f'Number of unique HTML tags: {len(unique_urls)} found on {url}')

输出:

Number of unique HTML tags: 63 found on https://en.wikipedia.org/wiki/Collatz_conjecture

» Philip 创建的更多回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)