社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

如何登录到站点并使用python 3进行清理

Ethan • 5 年前 • 1521 次点击  

我想登录Facebook Messenger并解析HTML。

import requests
from bs4 import BeautifulSoup
import webbrowser
page = requests.get("https://www.messenger.com", auth=
('username', 'password'))

soup = BeautifulSoup(page, 'html.parser')

print(soup)

我是从另一个堆栈问题中得到这个的,但它给了我一个错误:

    File "C:/Code/Beautiful Soup Web Scraping.py", line 7, in <module>
    soup = len(BeautifulSoup(page, 'html.parser'))
  File "C:\Users\Ethan\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\__init__.py", line 246, in __init__
    elif len(markup) <= 256 and (
TypeError: object of type 'Response' has no len()

我怎样才能让它工作?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/43133
 
1521 次点击  
文章 [ 2 ]  |  最新文章 5 年前
tdurnford
Reply   •   1 楼
tdurnford    6 年前

我建议使用 Selenium ,这将允许您登录到Facebook,导航到所需的页面,并检索HTML。然后可以将html传递给 BeautifulSoup . 看看这个 blog post 开始吧。

Louis Saglio
Reply   •   2 楼
Louis Saglio    6 年前

你必须通过美化组合网页的内容,而不是 Response 对象返回者 requests.get . 要获取内容,请使用 Response.content 财产。

在示例中使用: soup = BeautifulSoup(page.content, 'html.parser')