社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python学习日记 12

舍山 • 5 年前 • 253 次点击  

继续上一次日记的调试。

我百度了下,有可能是pip的版本问题。

如图

于是我又试了试,这次还是报错,只是报错不一样了。

报错

难道问题解决了?我继续查看。
原来是lxml还是没有安装,我继续安装。

终于开始安装了

好麻烦。。。看来还是的自己多学习。

趁着安装的时间,我又查了下一些关于爬虫的资料。
对于我这边半路出家的人来说,好像最好的办法是做一个垂直的领域,专门去研究python爬虫,反正我学python也是为了爬虫。

恩,我找了不少教程,等到windows电脑ok了,就正式开始。
现在这本书算是我的启蒙。

照例,这个也得requests重新装一次。


重装

然后,终于成功了。


成功的爬去界面

还是有点小激动。

from bs4 import BeautifulSoup
from lxml import html
import xml
import requests

url = "https://movie.douban.com/chart"
f = requests.get(url)                 #Get该网页从而获取该html内容
soup = BeautifulSoup(f.content, "lxml")  #用lxml解析器解析该网页的内容, 好像f.text也是返回的html
#print(f.content.decode())
#content = soup.find_all('div',class_="p12" )   #因为calss和关键字冲突,所以改名class_

for k in soup.find_all('div',class_='pl2'):#,找到div并且class为pl2的标签
   a = k.find_all('span')       #在每个对应div标签下找span标签,会发现,一个a里面有四组span
   print(a[0].string)            #取第一组的span中的字符串

运行的代码还是这样的。

大概明白了,之后继续。

see you


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/x3g8GI5zr0
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/24716
 
253 次点击