用自有数据微调大模型时,全量微调和 LoRA 微调应该怎么选?请从成本、效果、灾难性遗忘三个角度谈谈你的判断。

Question

吴师兄 · Accepted Answer

答案要点 全量微调更新模型全部参数,效果上限高但成本极高;LoRA 只训练少量新增的低秩矩阵,成本低、易部署 显存是第一道门槛:全量微调 7B 模型往往需要多卡 A100,LoRA 单卡 24G 显存即可起步 灾难性遗忘:全量微调容易「学了新的忘了旧的」,LoRA 因为冻结原模型权重,遗忘风险天然更小 大多数业务场景(风格调整、领域问答)LoRA 足够;只有数据量大、任务与预训练差异极大时才考虑全量 给出「默认 LoRA,必要才全量」的决策框架,比背参数更加分 核心概念 全量微调(Full Fine-tuning)是指用新数据更新模型的全部参数;LoRA(Low-Rank Adaptation,低秩适配)则冻结原模型权重,只在部分权重矩阵旁边插入两个很小的低秩矩阵进行训练,训练参数量通常不到原模型的 1%。打个比方:全量微调像把整本教材重写一遍,LoRA 像在教材上贴便利贴——原文不动,只补充重点。 三个角度对比 | 维度 | 全量微调 | LoRA | |------|---------|------| | 成本 | 要存全部参数的梯度和优化器状态,7B 模型动辄多卡 A100 | 只训练不到 1% 的参数,消费级显卡可跑 | | 效果 | 上限更高,适合大数据量、任务差异大的场景 | 中小数据量下与全量接近,多数场景够用 | | 灾难性遗忘 | 风险高,原有通用能力可能被新任务覆盖 | 原权重冻结,通用能力保留更好,适配器可随时摘掉还原 | 决策建议 数据几千到几万条、任务偏风格或领域适配 → 首选 LoRA 数据百万级、任务与预训练分布差异极大(如全新语言)→ 才考虑全量微调 一个基座模型要服务多个业务 → LoRA 适配器可按需插拔,全量做不到 入门之后,可以继续深入 QLoRA(量化 + LoRA 进一步省显存),以及 LoRA 的秩 r、alpha 等超参数怎么设置。

用自有数据微调大模型时,全量微调和 LoRA 微调应该怎么选?请从成本、效果、灾难性遗忘三个角度谈谈你的判断。

口语版讲法(约2分钟)

面试官可能的追问

同模块相关题目