AWS机器学习模型：分类和回归的选择

书接前文，本部分内容将机器学习问题和对应的算法联系起来。正如前文所述，我们想解决业务问题的形式决定了算法的选择。所以，我们需要充分理解不同算法的使用场景，特别是Amazon SageMaker自带的算法。我们来看几个例子。

1. 二元分类问题案例

假设你是一家银行市场部的经理。你希望通过给客户发邮件、短信、微信或者其他的信息，吸引新客户。通过业务分析，你归纳出了一个机器学习问题：根据客户的反馈，我是否应该联系这个客户？这个问题的答案有很简单，只有两种情况：是或否。这就是一个二元分类问题。

2. 多元分类问题案例

如果上面的问题稍微复杂一些，变成了“根据过去客户分类，某个特定客户属于哪一类？”其中选项包括：学生，城市白领，城乡结合部小贩，或者国企退休员工等等。根据这些分类，你可以判断是否给他们寄信。这就是多元分类问题。

以上的两个机器学习问题都是分类问题的代表。Amazon SageMaker自带若干算法，其中包括Linear Learner, XGBoost以及K-Nearest Neighbors。其中, XGBoost是Gradient-Boosted Trees算法开源实现的一个工具。而Gradient Boosting是一种监督学习算法，它通过整合一系列简单的模型，更加准确地预测目标变量。

3. 回归问题案例

什么样的问题可以成为机器学习中的回归模型呢？如果按照客户在银行的资产投资收益率(Return on Investment)来选择联系客户，那么这个问题就变成了回归问题。也许你会发现，同投资收益率高的客户连续更有效率。这样的话，你就可以按照投资收益率选择联系哪些客户。

Amazon SageMaker同样自带回归算法。你可以选择Linear Learner或者XGBoost。不过，为了产生合理的结果，需要注意超参数(Hyperparameters)的设定。