1.原始数据不能直接用于机器学习。
原始数据在接入Amazon S3后,往往并机器学习模型需要的数据。我们需要转换和清洗数据,然后才能使用。这其中的操作包括删除重复数据,缺失数据管理,特征标准化等等。另外,有时数据转换还需要改变数据结构。例如把它们转化成为联机分析处理(On-Line Analytical Processing,简称OLAP)模型,这样便于查询。
本节的内容就是要介绍如何使用AWS服务,在机器学习模型的范畴内实现数据转换。