万万没有料到的是,昨天发烧又严重了一些。
今天早上起来,稍微好了一点。
于是除了日常的工作,我决定趁着状态好一些赶快完成今天的学习计划。
按照昨天的安排,今天是我自己要写一个抓取的试验。
于是我决定找一个试验用的网站,正好今天要发稿子,我找了一个小门户网站来做试验。
就是他http://www.weizg.com/,咳咳,我仔细看了一下,放弃了。
这个居然用的还是<table>
换一个试试。
那就新浪把,PC时代我最喜欢的门户。
弄了半天,才弄完。
from bs4 import BeautifulSoup
from lxml import html
import xml
import requests
url = "https://www.sina.com"
f = requests.get(url) #Get该网页从而获取该html内容
#通过requests这个请求把网址里面的源代码拿到
soup = BeautifulSoup(f.content, "lxml") #用lxml解析器解析该网页的内容, 好像f.text也是返回的html
#print(f.content.decode())
#content = soup.find_all('div',class_="p12" ) #因为calss和关键字冲突,所以改名class_
for k in soup.find_all('div',class_='uni-blk-bt clearfix'):#,找到div并且class为pl2的标签
#把里面的内容赋予到k这里。
a = k.find_all('span') #在每个对应div标签下找span标签,会发现,一个a里面有四组span
print(a[0].string) #取第一组的span中的字符串
#string 字符串的意思
代码如上。
然后我发现结果是不一样的,为什么呢
是因为新浪这个网站一直在不停的刷新当中。
所以有问题。
今天就到这里吧
see you