这是 Python 数据机器学习系列的第二节《Scikit-Learn 中》
Scikit-Learn 上
Matplotlib 上
Matplotlib 下
Seaborn 上
Seaborn 中
Seaborn 下
Bokeh
Plotly
Cufflinks
PyEcharts
NumPy 上
NumPy 下
Pandas 上
Pandas 下
SciPy 上
SciPy 下
Pandas 时间序列
Pandas 高频数据采样
默顿模型计量经济资本
LSMC 定价美式和百慕大期权
负油价和负利率模型
Nelson-Siegel 构建债券收益率曲线
外汇交易组合保证金制定系统
FR007 利率掉期定价和曲线拔靴
量化投资 - 向量化回测
编程概览
元素型数据
容器型数据
流程控制:条件-循环-异常处理
函数上:低阶函数
函数下:高阶函数
类和对象:封装-继承-多态-组合
字符串专场:格式化和正则化
解析表达式:简约也简单
生成器和迭代器:简约不简单
装饰器:高端不简单
Sklearn 中核心 API 接口是估计器,而高级 API 接口是元估计器 (meta-estimator)。元估计器由很多基估计器 (base estimator) 组成。类比高阶函数将低阶函数当参数,元估计器将估计器当参数,其代码范式如下:
meta_estimator( base_estimator )
本课讨论五种元估计器,它们分别是
用来集成子模型的 ensemble
用来多类别和多标签分类的 multiclass
用来多输出分类的 multioutput
用于模型选择的 model_selection
用于数据预处理流水线的 pipeline
本课会用以下 Sklearn 中的模型来举例说明如何使用上述五种元估计器:
ensemble.BaggingClassifier
ensemble.AdaBoostClassifier
ensemble.VotingClassifier
ensemble.StackingClassifier
multiclass.OneVsOneClassifier
multiclass.OneVsRestClassifier
multioutput.MultiOutputClassifier
model_selection.GridSearchCV
model_selection.RandomizedSearchCV
pipeline.Pipeline
pipeline.FeatureUnion
集成估计器是用来做集成学习,该估计器里面有若干个分类器 (classifier) 或回归器 (regressor)。
分类器统计每个子分类器的预测类别数,再用「多数投票」原则得到最终预测。
回归器计算每个子回归器的预测平均值。
多类估计器可以处理多类别 (multi-class) 和多标签 (multi-label) 的分类问题。
多输出估计器可以处理多输出 (multi-output) 的分类问题。
模型选择主要用于评估模型表现,常见的模型选择估计器包括:
cross_validate:评估交叉验证的表现。
learning_curve:建立学习曲线。
GridSearchCV:用交叉验证方法从网格中一组超参数搜索出最佳超参数。
RandomizedSearchCV:用交叉验证方法从一组随机超参数分布搜索出最佳超参数。
流水线估计器把多个估计器串联 (Pipeline) 或并联 (FeatureUnion) 的方式组成一条龙服务。用好了它真的能大大提高效率。
想学就开始吧!
绝不会让你失望!
付费用户(付 1 赠 1)可以获得:
观看课程视频 (97 分钟)
Python 代码 (Jupyter Notebook)