社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

面向向量的机器学习系统:跨栈方法

专知 • 2 周前 • 47 次点击  

计算基础设施的发展一直是近年来机器学习(Machine Learning, ML)重大突破的关键驱动力。如今,每年在 ML 软件与硬件基础设施上的投资高达数千亿美元,机器学习系统的效率比以往任何时候都更加重要。

目前,有两大趋势正在塑造 ML 系统的演进。
首先,现代 AI 系统正变得越来越复杂,往往集成了超出模型本身的多个组件——向量数据系统在其中发挥着关键作用。一个典型例子是检索增强生成(Retrieval-Augmented Generation, RAG),它不仅融合了多个模型组件,还结合了基于向量数据库的向量检索系统。系统组件(模型与向量数据系统)以及底层硬件(用于模型的 ML 加速器与用于检索的异构硬件)的异质性,使得这些工作负载与传统的模型推理与训练有显著不同。
其次,随着摩尔定律的终结,具备专用或异构硬件的计算机系统日益普及。多样化硬件组件的存在——其计算能力、内存层次结构及互连架构各不相同——带来了新的挑战:如果不充分考虑硬件格局的快速演变,实现高系统效率已不再可行。

基于上述两点观察,本论文围绕机器学习系统效率提出了三个关键研究问题:

  1. 如何为新兴且复杂的 ML 工作负载(如 RAG 推理服务)设计高效的系统?

  2. 如何开发更高效的向量数据系统与硬件?

  3. 在后摩尔时代,如何在算法、系统与硬件之间实现协同优化?

为解答这些问题,本论文采用了跨栈(cross-stack)方法,并在提升 ML 系统效率方面做出了三大主要贡献,涵盖算法、系统与硬件三个层面。
首先,针对 RAG 推理服务在整个计算栈的效率问题,本论文提出了多项开创性工作:PipeRAG 聚焦算法层面的改进,RAGO 引入系统层优化,Chameleon 探索在 RAG 中使用异构加速器系统的方案。
其次,本论文研究了面向向量检索的算法-硬件协同设计,这不仅是 RAG 系统的核心环节,也在搜索引擎、推荐系统等领域具有重要意义。具体而言,FANNS 与 Falcon 分别优化了基于量化和基于图的两类最流行检索算法范式。
第三,本论文关注推荐系统的推理效率——这也是向量中心型(vector-centric)ML 系统的另一典型案例。在推荐模型中,对嵌入向量表的内存密集型查找操作常常是主要性能瓶颈。MicroRec 与 FleetRec 分别在硬件与系统层面提出解决方案,同时优化数据传输与计算,从而提升大规模推荐模型的效率。

本论文的研究工作并非一次性成果,而是迈向 ML 基础设施持续演进的奠基之作。它强调了两点重要性:(a) 优化现代 ML 流水线中的向量数据系统;(b) 在整个计算栈上追求性能优化。本文提出的思想将为下一代 ML 系统的设计与实现提供坚实基础。

专知便捷查看,访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/b4bd14fa3106ecbd967946d60deb332c

图片

点击“阅读原文”,查看下载本文

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/185573
 
47 次点击