通过gating logit归一化和自适应辅助损失系数两种新技术,训练了性能强劲的Skywork-MoE模型,为大规模MoE语言模型的训练提供了有益探索。 [CL]《Skywork-MoE: A Deep Dive into Training Techniques for Mixture-of-Experts Language Models》T Wei, B Zhu, L Zhao, C Cheng... [Kunlun Inc] (2024) 网页链接 #机器学习##人工智能##论文#