社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

专访上海电气品牌公关总监张笛：从“人带人闯市场”到全球品牌，大国重器的出海进化论 | TopDigi...

D20访谈直播预约！阿里AIGC大会“云参与”

项目从 MySQL 切换 PostgreSQL，踩了太多的坑！！！

AIGC独角兽硅基智能完成D轮融资，数字人业务营收数亿、已服务超50万用户｜36氪首发

豆瓣9.5，深度学习入门神作，“鱼书”系列第 5 部生成模型来了！

ChatGPT 4.5 国内直接用！

8 个 Python 库，再也不需要自己编写脚本了

量化前沿速递：机器学习[20250706]

ChatGPT们重塑了对话框，钉钉今天要重塑表格

超强 RAG 工作流实战：LangGraph + Elasticsearch 强强联手，让 AI 检...

私信 • 关注

F.Hoque

F.Hoque 最近创建的主题

» F.Hoque 创建的更多主题

F.Hoque 最近回复了

3 年前

回复了 F.Hoque 创建的主题 » 如何在python bs4中使用xpath获取字符串?

在xpath中,只需使用 text() 方法

from bs4 import BeautifulSoup
from lxml import etree

html_doc = """
<html>
<head>
</head>
<body>
   <div class="container">
      <section id="page">
         <div class="content">   
            <div class="box">  
               <ul>
                  <li>Name: Peter</li>
                  <li>Age: 21</li>
                  <li>Status: Active</li>
               </ul> 
            </div>
         </div>
      </section>
   </div>
</body>
</html>
"""

soup = BeautifulSoup(html_doc, 'lxml')
dom = etree.HTML(str(soup))
print(dom.xpath('/html/body/div/section/div[1]/div[1]/ul/li[3]/text())

输出:

 ['Status: Active']

#或者

for li in dom.xpath('/html/body/div/section/div[1]/div[1]/ul/li[3]/text()'):
    txt=li.split()[1]
    print(txt)

输出:

Active

#或者

print(' '.join(dom.xpath('/html/body/div/section/div[1]/div[1]/ul/li[3]/text()')))

输出:

Status: Active

#或者

print(''.join(dom.xpath('//*[@class="box"]/ul/li[3]/text()')))

输出:

状态:活动

4 年前

回复了 F.Hoque 创建的主题 » 为什么从Python中读取HTML不起作用?

尝试以下方法:

import pandas as pd
import requests
url_link = 'https://finance.yahoo.com/quote/NFLX/history?p=NFLX%27'
r = requests.get(url_link,headers ={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'})
read_html_pandas_data = pd.read_html(r.text)
print(read_html_pandas_data)

» F.Hoque 创建的更多回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)