社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

Python数据分析从小白到高手的几个步骤

挖地兔 • 5 年前 • 580 次点击  

上一周,一个非常高端的用户委托我给他做一个培训,从Python数据分析的基础到如何写一个策略实例,然后再用“江湖”方法实现实盘程序化交易。


一开始其实不太想接,但想到是Tushare用户的一个很实际的诉求,同时也是自己对曾经学习过的东西一个重新梳理和总结,所以就答应了。


接下来以后,很认真的做了一些准备,从写提纲到准备讲义 ,罗列了很多要点,尤其是在Python数据分析方面所用到的工具和方法,一一进行了讲解。


讲完以后才想来在2017年的时候,曾经看过一篇老外写的文章,把Numpy/Pandas甚至各种机器学习和神经网络算法组织成了不同的结构图,看起来非常清晰,一目了然。


有点遗憾当时没有拿出来跟那个朋友分享。所以,今天重新组织一下,希望能借别人的精华,把学习的路线和过程传递给更多想学习和正在学习的小伙伴。


以下是内容截图的原文地址,图片版权归原作者:

https://becominghuman.ai/cheat-sheets-for-ai-neural-networks-machine-learning-deep-learning-big-data-678c51b4b463


下载高清大图,请通过文章末尾方法获得。


Python起步,基础知识


在开始数据分析之旅之前,必须要掌握Python的基础方法和用法,就像一出生先要学会走路一样,别着急上跑道,打好基本功才能练就硬本事。

Python的基础知识比如变量声明,运算符操作,数据类型,常用数据集合操作都是要烂熟于心的。同时也要掌握一些开发工具,穿上鞋走路才能走得更稳,也更加舒服。


Python数据分析之源,Numpy


Numpy几乎是所有重要Python数据分析工具的依赖,比如后面要介绍的Pandas,以及其他机器学习工具的包,都需要依靠Numpy来完成数据的组织和清理。所以,我把Numpy定义为数据Python数据分析之源。

在Numpy里,需要灵活掌握基本的数据类型的使用,数组的(花式)切片,数据的广播运算,数据文件的读写等等,这些知识是为你练就数据神功积攒内力,打通任督二脉的第一步。


Python数据分析神器,Pandas


如果说Numpy可以打通全身经脉提升内力,那么Pandas就如同赐给了你一把屠龙宝刀,一刀在手,走遍天下无敌手。数据里披荆斩刺,牛鬼蛇神,几刀下去就会清清爽爽干干净净。

为啥这么干净利落?因为Pandas有DataFrame,数据里纵横驰骋,无非是几个简单的函数。另外,不论数据文件的对接,还是数据库的存取,也是一两行代码的功夫。


所以,想要行走江湖,Pandas这把杀猪刀,错了,屠龙宝刀,一定要用好。


数据清洗过程


刀要怎么用? 横一刀,竖一刀当然也可以,但我们还是要优雅一点。


肉一点的数据可以切,可以削,带点骨头的数据可以劈,可以斩,实在不行捅也行。(还是杀猪。。。)

所以,我们在处理数据的时候,基础会对数据进行切片,补全,去重,重塑等等,之后的统计分析也变得异常简单。


Python数据可视化,经典Matplotlib


虽然目前已经出现了很多优秀的支持Python的可视化工具,比如之前介绍过的Dash,Pyecharts,但Python御用的可视化工具Matplotlib在任何时候都可能出现在不同场合并有着不凡的表现。

可视化就像给数据穿上靓丽的外衣,辛苦折腾出的结果或者结论一定要有一个漂亮的呈现。所以,一个惊艳的图表报告能给一次“惊险”的数据之旅画上一个圆满的句号。


装逼第一步,机器学习


这几年人工智能火爆发展,强势入驻IT及互联网领域,连金融投资也要处处强调智能化。作为“智能”实现的第一步,机器学习承载了所有有志进入人工智能领域人的梦想,也是所有“码农”血洗屌丝形象,进入更高薪领域必备良器。

不管监督学习也好,半监督还是无监督也好,反正算法从此挂上了嘴巴,随口不蹦出几个经典算法来,都显示不出专业性,尤其是一些性能又高,知道的人又少的算法,那更是可以让人说话声音都要高出几个分贝。


但是装逼有时候也不太好装,骚年一定要认真学好,各处细节都要了解清楚,尤其是一些常用工具要掌握到位,比如下图的流程,可以让你快速定位问题,并制定出解决方案。


另外,我们也可以掌握一些算法速查表。

当然,如果能掌握一些系统性的工具包,更有利于对机器学习的理解和运用,Scikit-Learn或许是首先。


装逼第二步,神经网络


神经网络错综复杂的各种图或许会让你眼花缭乱,但这岂能让这种既像跳棋游戏又像电路板的东西挡住了我们装逼的路。


先来看看这些神经网络图,简称神图。

如果还没看过瘾,再来一版。

如果以上觉得还不够高级,那我们再来看看自带数学神秘光环的公式图。

如果看上面的图很烧脑,那我们还是看看对曾经风靡一时的TensorFlow的一个总结吧。

装逼第三步,搞定数据源


有了枪有了炮,总得要有弹药。


数据就是各类机器学习和人工智能实现价值的弹药,而金融数据是目前相对比较整洁,并且容易获得,也契合这些神经网络等高级玩意高起点,高价值,高逼格特点的一种数据源。


Tushare Pro为各路英雄豪杰提供了免费的,高质量的金融时间序列数据,除了提供各种资产类别的市场数据,也将提供宏观及行业数据,持续不断地为大家提供稳定的数据支持和服务。


有志在机器学习展现能力,又想通过金融市场体现价值的伙伴,可以借助Tushare开放平台获得免费数据支持。


最后,在本公众号私信关键字“机器学习”获取本文插图高清版。更多精彩内容请继续关注公众号“挖地兔”:

开启Pro体验的正确打开方式
通过http调取Tushare数据
利用Python搞定期货数据,获得免费API
新闻联播也可以拿来做数据分析?
利用Python实现摘要自动提取,完美瘦身只需一行代码
你想要的区块链数据接口都在这里




今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/t/hS2FGwiC8Q
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/28253
 
580 次点击