机器学习在蒸馏中能否撬动“质”的突破? 查看图片 //@爱可可-爱生活:本文提出了一种创新的奖励蒸馏知识蒸馏框架,通过自监督生成伪奖励并结合强化学习,使小型语言模型不仅学习大型教师模型的数据,更学习其隐含的质量评估标准,最终实现了学生模型超越教师模型的反直觉结果,为高效训练高性能小型语言模型开辟了新路径。 [CL]《Distill Not Only Data but Also Rewards: Can Smaller Language Models Surpass Larger Ones?》Y Zhang, L Wang, M Fang, Y Du... [Eindhoven University of Technology & Microsoft & University of Liverpool] (2025) 网页链接 #机器学习##人工智能##论文##AI创造营#