也许我们正生活在人类历史上最关键的时期:从大型计算机,到个人电脑,再到云计算。其实关键永远不是过去发生过什么,而是将来会有什么发生(后面一段抒情的内容就跳过了)。
二. 广义而言,有三种机器学习算法
1. 监督学习
该算法由一个目标变量/结果变量(或因变量)组成,该变量由一组给定的预测变量(自变量)中预测而来。我们利用这些变量集生成一个将输入值映射到期望输出值的函数。这个训练过程会一直持续到模型在训练数据集上达到期望的精确度。监督学习的例子有:回归、决策树、随机森林、k近邻法、逻辑回归等。
2. 非监督学习
该算法没有任何目标/结果变量要预测/估计。这个算法将种群聚类到不同的分组中,例如被广泛用于将用户分到不同的用户组从而对不同的用户组进行特定的干预。非监督学习的例子有:关联算法和k均值算法。
3. 强化学习
该算法训练机器做出具体的决策。它是这样工作的:机器暴露在一个能让它通过反复试错来训练自己的环境中。该机器利用过去的经验进行学习,并尝试透彻地了解并利用这些知识来做出精确的业务决策。强化学习的例子有:马尔科夫决策过程。
三. 常见的机器学习算法清单
以下是常用的机器学习算法清单,这些算法几乎可以应用于任何数据问题:
① 线性回归
② 逻辑回归
③ 决策树
④ SVM(支持向量机)
⑤ 朴素贝叶斯
⑥ kNN(k-近邻算法)
⑦ K-Means(K均值算法)
⑧ 随机森林
⑨ 降维算法
⑩ Gradient Boosting算法(梯度提升算法)
GBM
XGBoost
LightGBM
CatBoost
1.线性回归
线性回归通常用于根据连续变量估计实际值(房价、呼叫次数、总销售额等)。我们通过拟合一条最佳直线来建立自变量与因变量之间的关系。这条最佳直线称为回归线,由线性方程Y=a*X+b来表示。
理解线性回归最好的方式是回顾一下童年。如果你让一个五年级的小孩按体重从轻到重的顺序对班上的同学进行排序,且不能询问他们的体重,你觉得这个小孩会怎么做?他(她)很可能会目测人们的身高和体型来对他们进行排序。这是一个现实生活中使用线性回归的例子!事实上,这个小孩发现了身高和体型与体重有一定的关系,这个关系看起来很像上面的等式。
在这个等式中:
系数a和b可以通过最小二乘法获得。
请看下面这个例子,我们已经找到了最佳拟合曲线是y=0.2811x+13.9,因此当我们已知人的身高时可以通过该方程求出该人的体重。