在「机器学习的线性回归模型」文章中,我们学习了监督学习中如何使用线性回归模型拟合连续的数据集,而本文将要学习监督学习的另一大场景:分类,用于拟合离散的数据集。
同样推荐吴恩达老师在 Coursera 平台(https://www.coursera.org/)推出的《机器学习》在线课程(https://www.coursera.org/learn/machine-learning);本文将以该课程内容为主体大纲,从线性回归模型拓展到逻辑回归模型,并学习逻辑回归模型的实现,以个人的理解梳理知识框架,作为学习笔记。
本文实验环境:
Ubuntu 22.04
Anaconda
Jupyter-notebook
在「机器学习的线性回归模型」一文的实践过程中,我们可以看到构建机器学习系统的过程主要包含以下三要素:
模型:针对实际的数据集,利用先验知识假设输入数据和输出数据的内在规律和映射关系,如一元线性回归、多元线性回归、逻辑回归等;
策略:根据模型定义一个损失函数来衡量模型的性能,描述预测值与理论值之间的差距,将其转化为最小化损失函数值的优化问题,如均方误差等;
算法:针对求解损失函数最小值问题的具体数学方法和代码实现,如正规方程、梯度下降法等;
以经典案例房价预测为例,现有「房屋面积」和「价格」的关系数据集,我们可以假设该数据符合一元线性回归模型,针对一元线性回归模型,我们可以使用均方误差作为策略构建代价函数,随后我们使用梯度下降优化算法,求解代价函数在最小值时的参数值。
本文中,我们将按照模型、策略、算法三要素学习和构建逻辑回归模型。
假设我们现在有以下一组离散数据,表示某医疗诊断中关于肿瘤大小以及良性恶性的判断数据集:
1.某医疗诊断肿瘤判断数据集示意图
如上图所示我们仍可以选择使用一元线性回归模型 y=wx+b来进行拟合,对于正常数据样本,我们使用 f1(x) 可以较好的拟合,我们在 f1(x) 函数上选择合适的 y0 值作为分类标准;但是当我们遇到异常数据样本时,线性回归模型将如 f2(x) 一样去拟合异常数据,此时再以 y0 值作为分类标准就会产生错误。
……
由于后文涉及大量公式,公众号无法显示,请访问https://paper.seebug.org/3303/ 或点击左下角“阅读原文”查看全文。
l




