本节开始一个全新的系列,是整套 Python 第四阶段 (最后一阶段) 的课。我把整套知识体系分成四个模块:
Python 基础
数据分析:NumPy, Pandas, SciPy
数据可视化:Matplotlib, Seaborn, Bokeh, Plotly/Cufflinks, PyEcharts
机器学习:Scikit-Learn, Scikit-Plot, Keras
这是 Python 数据机器学习系列的第一节《Scikit-Learn 上》,之前 Python 数据可视化、数据分析和基础课如下:
Matplotlib 上
Matplotlib 下
Seaborn 上
Seaborn 中
Seaborn 下
Bokeh
Plotly
Cufflinks
-
PyEcharts
NumPy 上
NumPy 下
Pandas 上
Pandas 下
SciPy 上
SciPy 下
Pandas 时间序列
Pandas 高频数据
默顿模型 - 计量经济资本
LSMC - 美式百慕大期权定价
Bachelier - 负油价和负利率
Nelson Siegel - 债券收益率曲线构建
外汇交易组合保证金
编程概览
元素型数据
容器型数据
流程控制:条件-循环-异常处理
函数上:低阶函数
函数下:高阶函数
类和对象:封装-继承-多态-组合
字符串专场:格式化和正则化
解析表达式:简约也简单
生成器和迭代器:简约不简单
装饰器:高端不简单
在 Sklearn 里面有六大任务模块:分别是分类、回归、聚类、降维、模型选择和预处理,如下图从其官网的截屏。
要使用上述六大模块的方法,可以用以下的伪代码,注意 import 后面用的都是一些通用名称如 SomeClassifier, SomeRegressor, SomeModel,具体化的名称由具体问题而定,比如
SomeClassifier = RandomForestClassifier
SomeRegressor = LinearRegression
SomeModel = KMeans, PCA
SomeModel = GridSearchCV, OneHotEncoder
上面具体化的例子分别是随机森林分类器、线性回归器、K 均值聚类、主成分分析、网格追踪法、独热编码。
本此课程用以下思路来讲解:
先介绍 Sklearn,从其 API 设计原理出发分析其五大特点:一致性、可检验、标准类、可组合和默认值。最后再分析 Sklearn 里面自带数据以及储存格式。
再介绍机器学习,从定义出发引出机器学习四要素:数据、任务、性能度量和模型。
最后介绍 Sklearn 里面的三大核心 API,包括估计器、预测器和转换器。此内容最重要,几乎所有模型都会用到这三大 API。
想学就开始吧!
绝不会让你失望!
付费用户(付 1 赠 1)可以获得: