智能推荐系统的规模越来越大,已经达到百亿参数量级,这给存储系统的设计带来了新的挑战。其中,一个挑战是“容量墙”,每天新增百TB级的训练样本使得特征数目持续增长,底层系统需利用有限的服务器内存存储不断膨胀的embedding表,同时尽可能提高模型的准确率;另一个“带宽墙”,查询embedding表时引入的大量不规则DRAM访问,使得DRAM带宽不足成为推荐模型的主要性能瓶颈。本报告主要介绍如何从存储系统角度支撑更大规模、更高性能的推荐模型训练与部署。对于“容量墙”,针对实时训练场景下不同embedding表动态变化的特性,设计了一个内存高效的持续学习系统,在有限的内存上提高模型的表示能力;对于“带宽墙”,设计了一个GPU片上稀疏参数缓存,利用GPU的高带宽内存吸收对DRAM的访问,缓解DRAM的带宽瓶颈问题。