社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

云计算和机器学习之数据工程:创建数据知识库

健谈始于戊戌年 • 2 年前 • 234 次点击  

在以前的内容里,我们介绍了AWS和云计算的基础知识。接下来,我们要介绍如何利用云计算,建立和训练机器学习模型。但是在建立模型之前,我们还需要做一些准备工作。这就是本节要介绍数据工程(Data Engineering)的内容。

 

机器学习的领域包括大量的数据。我们可以利用整洁的数据发现商业机会。因此,在数据的帮助下,我们从被动接受市场,转变成主动出击,深入理解客户需求,从而帮助公司做出正确的商业决策。

 

虽然很多人可以理解数据的重要性,但是由于数据的多样性,存储全部数据并不容易。所以我们要做的第一件事情就是要将数据存储在中心知识库中。下图中列举了集中数据,包括物联网数据,多媒体数据、社交媒体数据等等。


     

这个问题可以通过数据湖(Data lake)来解决。不论是结构数据(Structured data)还是无结构数据(Unstructured data),都可以存储在数据湖中。



 

1. AWS Lake Formation和Amazon S3

 

AWS Lake Formation是数据湖解决方案。在数据科学中,Amazon S3是AWS的优先存储选择。


2. Amazon S3的更多内容回顾

 

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/117689
 
234 次点击