Py学习  »  机器学习算法

在Meta的机器学习工程师面试中,遇到“为什么用LoRA微调,不-20251125145425

爱可可-爱生活 • 5 月前 • 147 次点击  

2025-11-25 14:54

在Meta的机器学习工程师面试中,遇到“为什么用LoRA微调,不能直接更新全部权重?”这个问题,别只答“为了节省内存”,那太浅了。真正原因是“灾难性参数爆炸”问题。

微调Llama 70B模型需要更新700亿参数,梯度和优化器状态加起来约560GB显存,普通GPU根本撑不了。LoRA只需不到10GB,内存压力立刻缩 ...
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/189620