社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python金融应用之爬虫(一)

西瓜财经资讯 • 4 年前 • 1576 次点击  

NO.182

2020.08.09

工欲善其事,必先利其器


//


  - 前言 -  


◆ ◆ ◆ ◆



今天,小咖将开启爬虫这一工具的学习。今天来讲讲如何利用爬虫简单地爬去网页所需数据。


  - 爬虫简介 -  


◆ ◆ ◆ ◆



由于爬虫涉及较多网络专用术语,而小咖也仅是单纯一金融民工,因此这里就直接将网络上对于这些关键术语的定义展示给大家,如果感兴趣大家可以自行深度学习,而小咖的Python系列将主要专注于各类python工具的金融应用。


爬虫:是一个可以自动化抓取网页、app内容的工具。其中,我们将讲到的是目前应用最广泛的搜索引擎网络蜘蛛,在python中录入网址既可以获取网页数据。


URL:是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。URL的格式由三部分组成:

(1)第一部分是协议:http/https/ftp/ws等等。

(2)第二部分是存有该资源的主机IP地址(有时也包括端口号),简单说就是网站的域名。

(3)第三部分是主机资源的具体地址,如目录和文件名:即网站的二级目录和信息列表页、资源页等等。


Requests库:requests实现了HTTP协议中绝大部分功能,它提供的功能包括Keep-Alive、连接池、Cookie持久化、内容自动解压、HTTP代理、SSL认证、连接超时、Session等很多特性,最重要的是它同时兼容python2和python3。安装方法:

pip install requests


F12: 在网页界面点击F12后会出现开发者工具,我们可以通过F12找到所需数据及其节点。主要模块为:

Elements:可以查看当前文档的DOM信息

Console:查看调试,也可直接写JS代码

Source:查看当前资源文件的(CSS,JS,IMAGE)

Network:查看网络请求


  - 爬虫金融应用 -  


◆ ◆ ◆ ◆



第一步:安装各种包

资料来源:西瓜财经资讯


第二步:对网页数据直接存为表格的网页进行处理

资料来源:西瓜财经资讯


(1)在某些网页中,我们所需的数据会直接储存为表格,因此可以通过pd.read_html直接进行提取。本文案例为《智通港股通活跃成交|8月7日》。

资料来源:智通财经


(2)打开网页,点击F12后可以发现在DOM信息中发现网页中的几大数据表均保存为table的形式。

资料来源:智通财经


(3)可以直接对表格进行提取:

url="https://www.zhitongcaijing.com/content/detail/325179.html"

res = pd.read_html(url)


(4)得到的res是一个list,里面有两个dateframe,按顺序分别是网页中的沪港通(南向)十大活跃成交公司、深港通(南向)十大活跃成交公司,可以将表格按照res[0]、res[1]提取出来。


(5)打开数据表,可以看到数据是包含单位的,可以通过str.split对表格的列进行拆分,然后删除多余列,并将数据转换为浮点形式。语句仅展示了frame1,frame2同理可以得到。

(对表格中列进行拆分的方法还包括re.split,或者直接用lambda,后续如有相关应用再给大家展示)

资料来源:西瓜财经资讯


(6)最终,我们将得到如下表:

资料来源:西瓜财经资讯



参考链接:

https://www.lizenghai.com/archives/1392.html

https://www.zhihu.com/question/27414902


  - 后言 -  


◆ ◆ ◆ ◆


想要获取源代码的小伙伴关注公众号,后台回复“Python金融应用之爬虫(一)”即可。注意,源代码可以直接粘贴使用,而且是带文字说明的哦。


往期回顾:

一文看懂《积极型资产配置指南》的资产配置逻辑(全)

从《我在高盛的经济预测法》来看如何根据经济指标进行投资

2020半年度大类资产及基金表现盘点

全面解读债券收益率曲线(全)

多周期资产配置法及大类资产配置应用

中债估值/YY估值的分析与对比

如何从护城河角度识别伟大的公司?(更)

最全!黄金行情与金价决定因素分析

美林时钟深度理解及在国内市场的应用(全)

一文看懂股债跷跷板效应

从本轮人民币对美贬值看汇率历史走势和影响因素(全)

中美股指历史走势对比及未来展望

Python金融应用之提取交易日+合并截面数据

python量化入门(一)——利用特定指标筛选股票并回测

Python金融应用之基金业绩评价体系构建

Python金融应用之利用Pyecharts做动态图——

Python金融应用之利用Pyecharts做动态图(二)——

Python金融应用之利用Pyecharts做动态图(三)——地图

Python金融应用之雷达图制作

Python金融应用之制作热力图

Python金融应用之制作词云

Python金融应用之图表制作(八)——三维图

Python金融应用之图表制作(七)——蜡烛图

Python金融应用之图表制作(六)——色阶图

Python金融应用之图表制作(五)——合并图

Python金融应用之图表制作(四)——饼图

Python金融应用之图表制作(三)——散点图

Python金融应用之图表制作(二)——折线图

Python金融应用之图表制作(一)——柱状图

利用工具自动撰写报告(Python)——进阶版(一)

利用工具自动撰写报告(Python/Excel)——入门版












end



公众号:西瓜财经资讯

撰稿人:安静的金融美女子


记得点个在看哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/72337
 
1576 次点击