我说过,机器学习的目的是为了判断,比如判断产品未来的销量、判断客户是否会流失、判断一个一个词语的意思。销量、流失与否、词义,在数学里有时被称为被解释变量、因变量或者反应变量,在机器学习里,它们是标签。不管我们怎么称呼它,这是机器做判断的目标。
机器学习的判断是要有知识的,而知识是通过学习而得到。学习涉及到两个方面,一方面是教材,一方面是教学。对于机器,教材就是数据,数据有可能是结构化的,或者是非结构化的,比如图片、视频、音频等。在数据中,我们首先要明确标签是什么。这个通常是由问题决定的,比如零售商想要预测产品未来销量,那么销量就是标签,我们要在数据中把这个标签明确起来。
我们还需要知道,数据向我们提供了多少信息用来判断标签。即便是再伟大侦探,也离不开犯罪现场的勘察,离不开对案件特征的了解。特征,是从数据中总结出来的、可能对判断标签产生作用的信息。例如,在预测衣服销量时,衣服本身的特征(颜色、尺寸、版式等)、衣服价格、营销手段、竞争产品的信息都可能会成为机器判断销量的重要依据。
机器学习除了要有教材,还要有足够的教材,或者说,要有足够的样本。回想高中的学习经历,相信大家都经历过题海战术,题海战术的目的就是训练我们在面对新的题目时能够做出正确判断的能力。这种战术,虽然不想承认,但它是有效果的,其原因就在于每一门课程都有很多知识点,不同知识点的组合所需要的解题方法是不一样的。你可以把知识点看作是特征,把解题方法看作是标签。每一道题目,都是关于特征和标签的一个观测。如果题目数量不够,对于一个新出现的知识点组合,你就很难对解题方法做出判断。换句话说,当观测数目不足时,特征和标签之间的关系难以被训练出来。有时,比较聪明的学生还会对老师讲解的知识点进行再加工,形成新的知识体系;这个在机器学习中,被成为是特征选择和特征变换(主成分分析法就是在做这个事情)。