社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【斯坦福博士论文】可扩展、高效且安全的机器学习数据系统

专知 • 3 天前 • 27 次点击  

机器学习(ML)从业者正在部署数据中心级别的集群,以提供训练和服务越来越大、更强大机器学习模型所需的巨大的计算资源。这些集群可以包含成百上千个专用加速器(例如,GPU),通过专用的高带宽互联(例如,NVLink、RoCE或InfiniBand)进行互联。然而,继续扩展机器学习系统的能力不仅仅需要加速机器学习的核心计算内核(例如,基于梯度的优化或推理执行)。它还需要扩展端到端的机器学习流水线,包括以足够的速度存储和处理艾字节级的数据,以满足大规模机器学习工作负载的摄取需求。

本论文的重点是如何为端到端的机器学习训练流水线构建数据系统。这些系统生成、存储和处理数据,以支持数据中心级的机器学习训练集群。因此,它们必须是可扩展的、高效的和安全的。首先,机器学习数据系统需要具备可扩展性;它们不仅需要存储艾字节级的数据,还需要提供足够的摄取吞吐量,以确保加速器不会因为输入数据的延迟而被阻塞。虽然扩展性可以消除因训练加速器未充分利用而产生的数据停顿,但仅仅将运行在通用存储设备和CPU上的数据系统扩展以满足专用加速器的巨大数据需求,可能需要庞大的数据中心容量。因此,确保端到端机器学习数据流水线中的系统高效运行至关重要,从而使得整体的机器学习基础设施能够继续扩展。最后,机器学习模型现在广泛部署在用户面向的应用程序中,从社交媒体到电子商务。因此,机器学习数据系统必须具备安全性,以保护最终用户的敏感数据。

我们首先旨在理解端到端机器学习训练流水线的系统瓶颈和设计空间,重点关注深度学习推荐模型(DLRM)训练工作负载,因为它们对数据的需求极大,并且在现代网络应用程序中非常普遍。为此,我们首先提出了一项研究,首次探索了构成机器学习数据存储和摄取流水线的系统,重点是超大规模数据中心Meta。我们提出了分布式存储和数据处理系统的必要性,以防止训练数据的停顿。接着,我们展示并描述了支持Meta数据中心级DLRM训练集群的各种数据系统——批处理引擎、分布式文件系统和分散的预处理系统。然而,简单的分离存储并不足够,因为存储和预处理可能消耗比实际GPU本身多出2倍以上的资源。为了应对这一挑战,我们将我们的特征描述提炼为可行的研究机会,以构建更高效的数据系统。

基于这些机会,我们接下来展示了Meta部署的两个项目,以提高DLRM数据系统的效率。首先,Tectonic-Shift解决了高效存储艾字节级训练数据集的挑战。传统上,数据集存储在一个名为Tectonic的硬盘(HDD)支持的分布式文件系统中,这对于以读为主的机器学习训练作业提供了较差的I/O效率。为了提高Tectonic的I/O效率,我们构建了一个名为Shift的Flash缓存层。Shift智能地利用训练作业规格提供的预测信息,将数据集中的热门部分缓存到I/O高效的SSD中,从而将数据集所需的存储资源减少了29%。其次,我们展示了如何利用数据本身的表示来提高端到端训练系统效率,在一个名为RecD的项目中,RecD利用了深度学习推荐模型数据集在训练样本之间存在大量重复特征值的洞察——在Meta的数据集中,最多有89%的字节是重复的。RecD是一套互相关联的优化方案,涉及数据生成、存储、预处理和训练系统,通过去重减少了由于重复值带来的系统开销。因此,RecD分别提高了存储、预处理和训练效率,提升幅度分别为3.71倍、1.79倍和2.48倍。

虽然这些工作优化了Meta DLRM训练流水线的效率,但将效率优化扩展到各个领域,从语言到视觉也是非常重要的。为了减轻在各个领域和机器学习流水线中导航复杂系统优化空间的负担,我们引入了cedar。cedar允许机器学习从业者使用通用和可组合的运算符库,轻松定义端到端的机器学习数据预处理作业。然后,cedar系统地应用多种性能优化,以高效地将作业执行,并为训练加速器提供数据流。在此过程中,cedar能够将机器学习预处理性能提高最多1.87倍到10.65倍,超越现有最先进的机器学习数据系统。

最后,我们解决了在机器学习数据流水线中保护敏感用户数据的挑战。当前的硬件安全机制,例如英特尔的SGX或NVIDIA的保密计算,能够在处理过程中强制执行数据机密性和完整性保证。然而,这些当前的解决方案并未涵盖整个流水线,并且无法强制执行存储层所需的丰富安全属性,例如GDPR。幸运的是,FPGA越来越多地被部署到数据中心基础设施中,以加速存储和网络等操作。我们构建了ShEF,一个开源框架,使得加速器设计者能够在这些FPGA中构建、定制和部署受信执行环境(TEEs)。我们展示了如何通过ShEF在分布式、FPGA启用的存储节点上创建一个加密的、符合GDPR的存储层。因此,ShEF能够实现高吞吐量和安全的分布式存储,迈出了保护端到端机器学习数据流水线安全的重大步伐。ShEF还提供了关于如何为现代数据中心加速器(不仅仅是FPGA)构建受信执行环境的宝贵经验。

专知便捷查看,访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/287b88f5cbfa37155623ac4d40528dd5


图片

点击“阅读原文”,查看下载本文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/183071
 
27 次点击