LoRA 是什么?它为什么能用极少的参数量和显存完成大模型微调,直觉上该怎么理解低秩适配?

Question

吴师兄 · Accepted Answer

答案要点 LoRA(Low-Rank Adaptation,低秩适配)= 冻结原模型全部权重,只训练旁路上两个小矩阵 A 和 B 核心假设:微调带来的权重变化量 ΔW 是"低秩"的——信息量远小于矩阵尺寸,用两个瘦长小矩阵相乘就能近似 可训练参数通常只有全量微调的 0.1%~1%,梯度和优化器状态开销随之骤降 训练完可把 B×A 合并回原权重,推理零额外延迟 一个底座模型可配多个 LoRA"插件",按任务热插拔 核心概念 LoRA 是一种参数高效微调方法:把预训练权重 W 整体冻结,在它旁边加一条"旁路"——先用小矩阵 A 把输入降到很低的维度 r,再用小矩阵 B 升回原维度,训练时只更新这两个小矩阵,前向输出是 W·x + B·A·x。 直觉解释(不需要数学推导):微调不是让模型"重新学会说话",而是在已有能力上做小幅调整——好比给西装改袖长,不必重做整件衣服。既然"改动量"本身信息含量低,就没必要用一个和原矩阵一样大的矩阵去存它。感受一下数字:一个 4096×4096 的权重矩阵约 1678 万参数;取秩 r=8 时,LoRA 只需 4096×8 + 8×4096 ≈ 6.5 万参数,约为原来的 0.4%。 省资源到底省在哪 | 显存开销 | 全量微调 | LoRA | |---|---|---| | 模型权重 | 要存 | 要存(但冻结) | | 梯度 | 全部参数 | 只有 A、B | | 优化器状态(Adam 约为参数 2 倍) | 全部参数 | 只有 A、B | 所以全量微调 7B 模型动辄要 80G+ 显存,LoRA 一张 24G 消费级显卡就能跑,配合 4bit 量化(QLoRA)还能更低。 两个工程福利 推理零延迟:训练完把 B·A 加回 W,结构和原模型完全一样,不增加推理开销 多任务热插拔:底座只存一份,每个业务场景一个几十 MB 的 LoRA 文件,随用随换 入门后可以深入:秩 r 与缩放系数 alpha 怎么选、LoRA 该挂在哪些层,以及 QLoRA、DoRA 等变体。

LoRA 是什么?它为什么能用极少的参数量和显存完成大模型微调,直觉上该怎么理解低秩适配?

口语版讲法(约2分钟)

面试官可能的追问

同模块相关题目