Py学习  »  Python

Python金融应用之爬虫(一)

西瓜财经资讯 • 3 年前 • 1031 次点击  

NO.182

2020.08.09

工欲善其事,必先利其器


//


  - 前言 -  


◆ ◆ ◆ ◆



今天,小咖将开启爬虫这一工具的学习。今天来讲讲如何利用爬虫简单地爬去网页所需数据。


  - 爬虫简介 -  


◆ ◆ ◆ ◆



由于爬虫涉及较多网络专用术语,而小咖也仅是单纯一金融民工,因此这里就直接将网络上对于这些关键术语的定义展示给大家,如果感兴趣大家可以自行深度学习,而小咖的Python系列将主要专注于各类python工具的金融应用。


爬虫:是一个可以自动化抓取网页、app内容的工具。其中,我们将讲到的是目前应用最广泛的搜索引擎网络蜘蛛,在python中录入网址既可以获取网页数据。


URL:是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL的格式由三部分组成:

(1)第一部分是协议:http/https/ftp/ws等等。

(2)第二部分是存有该资源的主机IP地址(有时也包括端口号),简单说就是网站的域名。

(3)第三部分是主机资源的具体地址,如目录和文件名:即网站的二级目录和信息列表页、资源页等等。


Requests库:requests实现了HTTP协议中绝大部分功能,它提供的功能包括Keep-Alive、连接池、Cookie持久化、内容自动解压、HTTP代理、SSL认证、连接超时、Session等很多特性,最重要的是它同时兼容python2和python3。安装方法:

pip install requests


F12: 在网页界面点击F12后会出现开发者工具,我们可以通过F12找到所需数据及其节点。主要模块为:

Elements:可以查看当前文档的DOM信息

Console:查看调试,也可直接写JS代码

Source:查看当前资源文件的(CSS,JS,IMAGE)

Network:查看网络请求


  - 爬虫金融应用 -  


◆ ◆ ◆ ◆



第一步:安装各种包

资料来源:西瓜财经资讯


第二步:对网页数据直接存为表格的网页进行处理

资料来源:西瓜财经资讯


(1)在某些网页中,我们所需的数据会直接储存为表格,因此可以通过pd.read_html直接进行提取。本文案例为《智通港股通活跃成交|8月7日》。

资料来源:智通财经


(2)打开网页,点击F12后可以发现在DOM信息中发现网页中的几大数据表均保存为table的形式。

资料来源:智通财经


(3)可以直接对表格进行提取:

url="https://www.zhitongcaijing.com/content/detail/325179.html"

res = pd.read_html(url)


(4)得到的res是一个list,里面有两个dateframe,按顺序分别是网页中的沪港通(南向)十大活跃成交公司、深港通(南向)十大活跃成交公司,可以将表格按照res[0]、res[1]提取出来。


(5)打开数据表,可以看到数据是包含单位的,可以通过str.split对表格的列进行拆分,然后删除多余列,并将数据转换为浮点形式。语句仅展示了frame1,frame2同理可以得到。

(对表格中列进行拆分的方法还包括re.split,或者直接用lambda,后续如有相关应用再给大家展示)

资料来源:西瓜财经资讯


(6)最终,我们将得到如下表:

资料来源:西瓜财经资讯



参考链接:

https://www.lizenghai.com/archives/1392.html

https://www.zhihu.com/question/27414902


  - 后言 -  


◆ ◆ ◆ ◆


想要获取源代码的小伙伴关注公众号,后台回复“Python金融应用之爬虫(一)”即可。注意,源代码可以直接粘贴使用,而且是带文字说明的哦。


往期回顾:

一文看懂《积极型资产配置指南》的资产配置逻辑(全)

从《我在高盛的经济预测法》来看如何根据经济指标进行投资

2020半年度大类资产及基金表现盘点

全面解读债券收益率曲线(全)

多周期资产配置法及大类资产配置应用

中债估值/YY估值的分析与对比

如何从护城河角度识别伟大的公司?(更)

最全!黄金行情与金价决定因素分析

美林时钟深度理解及在国内市场的应用(全)

一文看懂股债跷跷板效应

从本轮人民币对美贬值看汇率历史走势和影响因素(全)

中美股指历史走势对比及未来展望

Python金融应用之提取交易日+合并截面数据

python量化入门(一)——利用特定指标筛选股票并回测

Python金融应用之基金业绩评价体系构建

Python金融应用之利用Pyecharts做动态图——

Python金融应用之利用Pyecharts做动态图(二)——

Python金融应用之利用Pyecharts做动态图(三)——地图

Python金融应用之雷达图制作

Python金融应用之制作热力图

Python金融应用之制作词云

Python金融应用之图表制作(八)——三维图

Python金融应用之图表制作(七)——蜡烛图

Python金融应用之图表制作(六)——色阶图

Python金融应用之图表制作(五)——合并图

Python金融应用之图表制作(四)——饼图

Python金融应用之图表制作(三)——散点图

Python金融应用之图表制作(二)——折线图

Python金融应用之图表制作(一)——柱状图

利用工具自动撰写报告(Python)——进阶版(一)

利用工具自动撰写报告(Python/Excel)——入门版












end



公众号:西瓜财经资讯

撰稿人:安静的金融美女子


记得点个在看哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/72337
 
1031 次点击