Python社区  »  机器学习算法

AWS机器学习模型:监督学习和非监督学习

健谈始于戊戌年 • 1 周前 • 35 次点击  

3.不同机器学习模型的场景情景                          

 

3.1监督学习

 

监督学习是一种常见的机器学习模型,它应用广泛而,适用于很多场景。监督学习算法通过发现变量之间的关系,找到数据结构。

 

我们来看一个例子。如果训练模型中有很多动物的图片及其标记(记号)。标记用来说明动物的类型,有些图片是猫,有些图片是狗。理论上讲,在经过训练之后,模型可以预测新的图片是猫还是狗。

 

需要指出,监督学习只适用于知道结果的模型。也就是说监督学习只使用有标记的情况。 

 

3.2非监督学习

 

但是,如果训练数据没有标记,我们就不知道输入数据和输出数据的关系,这就要使用非监督学习模型了。

 

聚类(Clustering)就是一种常见的非监督学习。为了更好地理解数据,聚类算法将数据按照相同的特征分类。比方说,某家公司在不同的超市销售文具,我们想知道不同类型消费者的行为。经过研究,我们可能会发现有一些小公司的客户喜欢买铅笔和笔记本。而另一类大公司的客户喜欢买办公桌和办公椅。因此,对于不同类型的公司客户,我们就可以采用不同的市场策略。


 

4.两类常用监督学习算法:分类和回归

 

4.1二元分类(Binary classification)

 

在分类的问题中,常见的有两类问题。第一种是二元分类。前文中我们提到了信用卡违约的问题。目标变量有两个选择:违约和没有违约。这就是二元分类问题的一个例子。也就是说我们可以把观测值分为两类。

 

4.2多元分类(Multiclass classification)

另一种分类的问题是多元分类。这类机器学习问题的观测值可以有3类或者更多。举例来说,假如我们用机器学习模型预测客户给公司客服打电话的原因,从而降低客户打客服电话的次数。显然,对于这个问题,客户很有很多原因打客服电话,绝对不止两个原因。

 

4.3回归问题

 

最后,我们来介绍一下回归问题。与上面介绍的分类问题不同,回归问题的因变量是连续的,例如公司股价。所以,用各种变量去预测公司股价就是一个常见的机器学习回归问题。


 

5. 按机器学习问题的方法重新构建业务问题

 

如何定义问题取决于业务需要。假如公司想生产某种产品,但是每种产品生产多少由销量决定。在这种情况下,就需要预测销量。在机器学习中,有很多种方法可以用于这个问题。如何选择方法取决于具体的业务需求。


如果要预测的销量是数值,那么就是一个回归问题。但由于需要预测的销量不一定是个数据,而可能是二元变量,那就是一个分类问题。比方说,如果要预测某种商店中某种铅笔的销售次数是否大于10次。这就是个分类问题。

 

需要强调,在把业务问题转换为机器学习问题的时候,最佳的状态是既包括了全部重要信息,又采用了简单的形式。


一方面,不要将简单的问题复杂化,大道至简!但是另一方面,也不要遗失重要信息,特别是有关过去答案的信息。例如,如果把历史销售数据转换为二元变量“大于10”,就会遗失有价值的信息。因此,在建模之前花点时间研究哪一个目标对预测更好,可以做到事半功倍。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/121292
 
35 次点击  
分享到微博