在Meta的机器学习工程师面试中,遇到“为什么用LoRA微调,不能直接更新全部权重?”这个问题,别只答“为了节省内存”,那太浅了。真正原因是“灾难性参数爆炸”问题。微调Llama 70B模型需要更新700亿参数,梯度和优化器状态加起来约560GB显存,普通GPU根本撑不了。LoRA只需不到10GB,内存压力立刻缩 ...