什么是 KV Cache?它为什么能大幅加速大模型的推理?这种加速又会带来什么代价?

Question

吴师兄 · Accepted Answer

答案要点 大模型生成是逐 token 自回归的,每生成一个新 token 都要「回看」前面所有 token 不加缓存时,前面每个 token 的 Key/Value 会被一遍遍重算,计算量随长度急剧膨胀 KV Cache 把已算过的 K、V 存进显存,新 token 只算自己的再与缓存拼接,典型的空间换时间 代价是显存:缓存随序列长度和并发数线性增长,长对话高并发下可能比模型权重还占显存 它是所有主流推理框架的默认标配,也是 PagedAttention 等显存优化的起点 核心概念 KV Cache(键值缓存)是大模型推理时,把注意力计算中每个已处理 token 的 Key 和 Value 向量缓存在显存里、避免重复计算的优化技术。背景是:大模型生成文本是自回归的——答案一个 token 一个 token 往外蹦,而每生成一个新 token,注意力机制都要用它和前面所有 token 的 K、V 做计算。关键观察是:前面那些 token 的 K、V 在每一轮里的值完全一样,重算纯属浪费。 直觉:开会记笔记 不缓存,相当于每来一位新发言者,书记员都要把前面所有人的发言从头速记一遍;有了 KV Cache,前面的发言都记在本子上,新发言者只需记下自己这一条,其余翻本子对照即可。 加速效果与显存代价 加速:每步生成从「重算整个前缀」变成「只算 1 个新 token」,单步计算量从随长度增长变为近似恒定,长文本生成提速常达一个数量级 代价:缓存大小约等于 2 × 层数 × KV 头数 × 头维度 × 序列长度 × 并发数 × 精度字节数,随长度和并发线性增长;7B 模型在长上下文、多并发时,KV Cache 占用可与权重相当甚至更多 显存于是决定了能同时服务多少用户、每人能聊多长——这正是大模型推理服务贵在显存的重要原因 入门后可深入 PagedAttention(vLLM 的分页式缓存管理)、GQA/MQA(从架构上减少 KV 头数)以及 KV Cache 量化。

什么是 KV Cache?它为什么能大幅加速大模型的推理?这种加速又会带来什么代价?

口语版讲法(约2分钟)

面试官可能的追问

同模块相关题目