卷积神经网络(CNN)等深度神经网络(DNN)实现了深度学习。它们具有多层非线性特征转换,每增加一层就能提取出越来越好的特征。然而,训练一个大型 DNN 并在这样的网络上执行推理需要耗费大量的时间和精力。对于大型语言模型(LLM)和生成式对抗网络(GAN)等大型深度网络来说,训练成本很高。由于小型人工智能物联网(AIoT)设备在处理能力、内存占用和功耗预算方面存在严格的资源限制,因此在这些设备上进行训练和推理更具挑战性。有必要共同设计算法、模型和硬件参数,以便在这些嵌入式设备上执行高效的训练和推理。在为嵌入式设备训练复杂的深度模型时,并行处理、管理内存访问时间表和利用数据稀疏性等高级计算技术至关重要。本项目旨在针对嵌入式深度学习和推理中的关键挑战开展广泛研究。例如,我们探索了嵌入式深度学习与基于并行和分布式计算的高级计算之间的相互作用。该项目利用了 PI 在相关领域的经验,包括他早期在系统阵列以及分布式和嵌入式神经网络架构方面的工作。我们将在本报告的其余部分重点介绍我们已发表的部分成果。