•1. Ensemble learning
•Bagging, Boosting, Stacking
•Ensemble learning vs Hype-heuristic
•Random forest, Decision tree
title: 【机器学习课程 2-1-统计学习106+7-SVR+ensemble-只有15分钟】
link: https://www.bilibili.com/video/BV1W62SBwEqt/?share_source=copy_web&vd_source=de128a400dcc68a2a592a78a6789fd9b
集成学习的核心思想:减少模型的方差或偏差 → 提升泛化能力。用多个弱模型(weak learners)组合成一个强模型(strong learner),利用“群体智慧”提升性能。
随机森林 = 许多决策树 (Decision Trees) 组成的集成模型,通过随机抽样 + 多树投票/平均 来提升预测性能与泛化能力。所以可用于分类,也可用于回归,也可用于特征重要性分析 (feature importance)。核心是 Bagging (Bootstrap aggregating)+ 随机特征选择。
1. 为什么时间序列回归需要单独成一个分支?
因为时间序列数据的结构和普通回归数据完全不一样。普通回归假设:
每条样本是独立同分布(i.i.d.)
自变量是外生的
残差之间没有相关性
但时间序列的数据有三个强烈的特征:
(1) 自相关(强烈违背 i.i.d. 假设)
今天的需求量、今天的温度、今天的流量……都与昨天、前天强相关。
(2) 时序依赖(顺序不能乱)
你不能打乱今天和明天的顺序来训练。
(3) 平稳性问题
AR/ARIMA 等要求序列平稳,否则模型无法工作。