Python学习日记 17

万万没有料到的是，昨天发烧又严重了一些。
今天早上起来，稍微好了一点。

于是除了日常的工作，我决定趁着状态好一些赶快完成今天的学习计划。

按照昨天的安排，今天是我自己要写一个抓取的试验。

于是我决定找一个试验用的网站，正好今天要发稿子，我找了一个小门户网站来做试验。

就是他http://www.weizg.com/，咳咳，我仔细看了一下，放弃了。
这个居然用的还是<table>

很久之前的写法了

换一个试试。

那就新浪把，PC时代我最喜欢的门户。
弄了半天，才弄完。

from bs4 import BeautifulSoup
from lxml import html
import xml
import requests

url = "https://www.sina.com"
f = requests.get(url)                 #Get该网页从而获取该html内容
#通过requests这个请求把网址里面的源代码拿到

soup = BeautifulSoup(f.content, "lxml")  #用lxml解析器解析该网页的内容, 好像f.text也是返回的html
#print(f.content.decode())
#content = soup.find_all('div',class_="p12" )   #因为calss和关键字冲突，所以改名class_

for k in soup.find_all('div',class_='uni-blk-bt clearfix'):#,找到div并且class为pl2的标签
  #把里面的内容赋予到k这里。

   a = k.find_all('span')       #在每个对应div标签下找span标签，会发现，一个a里面有四组span
   print(a[0].string)            #取第一组的span中的字符串
#string 字符串的意思

代码如上。

然后我发现结果是不一样的，为什么呢
是因为新浪这个网站一直在不停的刷新当中。

所以有问题。

今天就到这里吧

see you

今天看啥 - 高品质阅读平台
本文地址：http://www.jintiankansha.me/t/KOCCWqidLT