Py学习  »  机器学习算法

机器学习课程 2-1-统计学习107-Ensemble learning

运筹优化与数据科学 • 1 月前 • 55 次点击  
Outline

1. Ensemble learning

Bagging, Boosting, Stacking

Ensemble learning vs Hype-heuristic

Random forest, Decision tree



===============
课件下载
2-1-统计学习107-Ensemble learning.pdf

===============
课程视频讲解
bilibili网站
title: 【机器学习课程 2-1-统计学习106+7-SVR+ensemble-只有15分钟】 
link: https://www.bilibili.com/video/BV1W62SBwEqt/?share_source=copy_web&vd_source=de128a400dcc68a2a592a78a6789fd9b

===============
基本认识


集成学习的核心思想:减少模型的方差或偏差 → 提升泛化能力。用多个弱模型(weak learners)组合成一个强模型(strong learner),利用“群体智慧”提升性能。

  • 1) Bagging (Bootstrap Aggregating)—减少方差,典型代表:随机森林

  • 2) Boosting—减少偏差,典型代表:AdaBoost,XGBoost,LightGBM

  • 3) Stacking (Stacked Generalization)—融合不同模型,典型代表Kaggle


随机森林 = 许多决策树 (Decision Trees) 组成的集成模型,通过随机抽样 + 多树投票/平均 来提升预测性能与泛化能力。所以可用于分类,也可用于回归,也可用于特征重要性分析 (feature importance)。核心是 Bagging (Bootstrap aggregating)+ 随机特征选择


1. 为什么时间序列回归需要单独成一个分支?

因为时间序列数据的结构和普通回归数据完全不一样。普通回归假设:

  • 每条样本是独立同分布(i.i.d.)

  • 自变量是外生的

  • 残差之间没有相关性


但时间序列的数据有三个强烈的特征:

(1) 自相关(强烈违背 i.i.d. 假设)

今天的需求量、今天的温度、今天的流量……都与昨天、前天强相关


(2) 时序依赖(顺序不能乱)

你不能打乱今天和明天的顺序来训练。


(3) 平稳性问题

AR/ARIMA 等要求序列平稳,否则模型无法工作。


===============
课件内容图片版


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/190267