机器学习入门-1: 分类

机器学习(ML)最近受到了很多关注，它彻底改变了从图像识别到金融，以及医疗保健再到交通运输的各个领域。然而，机器学习的一个典型的解释是这样的:

“假设用P来评估计算机程序在某任务类T上的性能，若一个程序通过利用经验E在T中任务上获得了性能改善，则我们就说关于T和P，该程序对E进行了学习。”

看完这句话，你一定无法理解，因为说的太理论化了。从入门到放弃就是这样产生的。

为了更好的让大家理解机器学习的本质，我们用通俗的语言解释机器学习的原理与本质。这一系列文章看完后，你对机器学习就入门了。

1. 那么什么是机器学习呢?

机器学习的核心并不难理解。事实上，绝大多数机器学习算法只涉及一个简单的任务:画线。具体说，机器学习就是通过一些数据来画线。这是什么意思呢？让我们看一个简单的例子。

2. 分类

假设你是一台计算机，收集了苹果和桔子的图像。从每幅图像中，你可以推断出水果的颜色和大小。你想把这些图像分类为苹果或桔子的图像。

许多机器学习算法的第一步是获取有标记的训练数据。在我们的例子中，获取大量的水果图片，每个图片都被标记为苹果或桔子。从这些图像中，我们可以提取颜色和大小信息，然后看看它们如何与苹果或桔子关联起来。例如，对标记好的训练数据，我们绘制出来是这样的:

红色的x标为苹果，橙色的x标为桔子。你可能注意到数据形成了一个模型。苹果似乎聚集在图的左边，因为它们大部分是红色的，而桔子似乎聚集在图的右边，因为它们大部分是橙色的。我们希望通过算法学习这些类型的模型。

3. 决策边界

对于这个特殊的问题，我们的目标是创建一个算法，在两个标记的数据组之间划一条线，称为决策边界。我们的数据的最简单的决策边界可能是这样的:

苹果和桔子之间只有一条直线。然而，更复杂的机器学习算法最终可能会画出更复杂的决策边界，比如:

我们的假设是，在上面标记的训练数据中所画的用来区分苹果图像和桔子图像的那条线，将能够在任何图像中区分苹果和橘子。

换句话说，通过给算法一些苹果和桔子的例子来学习，它可以把它的经验推广到它从未遇到过的苹果和桔子的图像上。例如，如果给我们一个水果的图像，用下面的蓝色X表示，我们可以根据我们画的决策边界把它归类为橙色:

这就是机器学习的力量。我们获取一些训练数据，运行一个机器学习算法，在数据上画出一个决策边界，然后推断我们所学到的知识，得到全新的数据片段。

当然，区分苹果和桔子是一件很平常的事情。然而，我们可以将这种策略应用到更令人兴奋的问题上，比如将肿瘤分类为恶性或良性，将电子邮件标记为垃圾邮件或非垃圾邮件，或者分析用于安全系统的指纹。

这种机器学习（用线条来分隔数据）只是机器学习的一个子领域，叫做分类。另一个子域，称为回归，是关于绘制描述数据的线条。下篇文章我们讲解回归。

宁波格密链网络科技有限公司目前研究全同态加密、机器学习，区块链的生态系统的研发。

往期推荐

▼

欢迎收听“区块链杂谈”节目，国内最有质量的区块链知识分享节目。

◆ ◆ ◆ ◆ ◆

格密链

专注于区块链上的密码学技术

长按扫码可关注