如何登录到站点并使用python 3进行清理

Ethan • 6 年前 • 1961 次点击

我想登录Facebook Messenger并解析HTML。

import requests
from bs4 import BeautifulSoup
import webbrowser
page = requests.get("https://www.messenger.com", auth=
('username', 'password'))

soup = BeautifulSoup(page, 'html.parser')

print(soup)

我是从另一个堆栈问题中得到这个的,但它给了我一个错误:

    File "C:/Code/Beautiful Soup Web Scraping.py", line 7, in <module>
    soup = len(BeautifulSoup(page, 'html.parser'))
  File "C:\Users\Ethan\AppData\Local\Programs\Python\Python37\lib\site-packages\bs4\__init__.py", line 246, in __init__
    elif len(markup) <= 256 and (
TypeError: object of type 'Response' has no len()

我怎样才能让它工作?

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/43133

文章 [ 2 ] | 最新文章 6 年前

• 1 楼

tdurnford 7 年前

我建议使用 Selenium ,这将允许您登录到Facebook,导航到所需的页面,并检索HTML。然后可以将html传递给 BeautifulSoup . 看看这个 blog post 开始吧。

• 2 楼

Louis Saglio 7 年前

你必须通过美化组合网页的内容,而不是 Response 对象返回者 requests.get . 要获取内容,请使用 Response.content 财产。

在示例中使用: soup = BeautifulSoup(page.content, 'html.parser')

登录后回复