在以前的内容里,我们介绍了AWS和云计算的基础知识。接下来,我们要介绍如何利用云计算,建立和训练机器学习模型。但是在建立模型之前,我们还需要做一些准备工作。这就是本节要介绍数据工程(Data Engineering)的内容。
机器学习的领域包括大量的数据。我们可以利用整洁的数据发现商业机会。因此,在数据的帮助下,我们从被动接受市场,转变成主动出击,深入理解客户需求,从而帮助公司做出正确的商业决策。
虽然很多人可以理解数据的重要性,但是由于数据的多样性,存储全部数据并不容易。所以我们要做的第一件事情就是要将数据存储在中心知识库中。下图中列举了集中数据,包括物联网数据,多媒体数据、社交媒体数据等等。
这个问题可以通过数据湖(Data lake)来解决。不论是结构数据(Structured data)还是无结构数据(Unstructured data),都可以存储在数据湖中。
1. AWS Lake Formation和Amazon S3
AWS Lake Formation是数据湖解决方案。在数据科学中,Amazon S3是AWS的优先存储选择。
2. Amazon S3的更多内容回顾