Py学习  »  Python

Python学习日记 17

舍山 • 5 年前 • 211 次点击  

万万没有料到的是,昨天发烧又严重了一些。
今天早上起来,稍微好了一点。

于是除了日常的工作,我决定趁着状态好一些赶快完成今天的学习计划。

按照昨天的安排,今天是我自己要写一个抓取的试验。

于是我决定找一个试验用的网站,正好今天要发稿子,我找了一个小门户网站来做试验。

就是他http://www.weizg.com/,咳咳,我仔细看了一下,放弃了。
这个居然用的还是<table>

很久之前的写法了

换一个试试。

那就新浪把,PC时代我最喜欢的门户。
弄了半天,才弄完。

from bs4 import BeautifulSoup
from lxml import html
import xml
import requests

url = "https://www.sina.com"
f = requests.get(url)                 #Get该网页从而获取该html内容
#通过requests这个请求把网址里面的源代码拿到

soup = BeautifulSoup(f.content, "lxml")  #用lxml解析器解析该网页的内容, 好像f.text也是返回的html
#print(f.content.decode())
#content = soup.find_all('div',class_="p12" )   #因为calss和关键字冲突,所以改名class_

for k in soup.find_all('div',class_='uni-blk-bt clearfix'):#,找到div并且class为pl2的标签
  #把里面的内容赋予到k这里。

   a = k.find_all('span')       #在每个对应div标签下找span标签,会发现,一个a里面有四组span
   print(a[0].string)            #取第一组的span中的字符串
#string 字符串的意思

代码如上。

然后我发现结果是不一样的,为什么呢
是因为新浪这个网站一直在不停的刷新当中。

所以有问题。

今天就到这里吧

see you


今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/KOCCWqidLT
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/24941
 
211 次点击