什么是监督微调(SFT)?它和预训练分别负责什么,两个阶段的训练数据形态有什么不一样?

Question

吴师兄 · Accepted Answer

答案要点 SFT(Supervised Fine-Tuning,监督微调)= 用"指令-回答"成对数据,教预训练模型学会听懂并执行指令 分工:预训练学知识和语言能力(会说话),SFT 学对话格式和任务遵循(会好好回答) 数据形态迥异:预训练用海量无标注原始文本,SFT 用少量高质量的标注对话样本 训练目标同为预测下一个词,但 SFT 通常只对回答部分计算 loss SFT 是后训练(post-training)的第一步,后面还有 RLHF/DPO 等对齐环节 核心概念 SFT 是指在预训练好的基础模型上,用人工整理的"输入指令 → 期望回答"成对样本继续做监督训练,让模型学会按人类期望的方式回答问题。一个只经过预训练的基座模型(base model)本质是"续写机器":你问它"中国的首都是哪里?",它可能续写出"这是一道常见的地理题……"而不是直接回答——它只学过预测下一个词,没学过"该扮演助手"。SFT 补上的正是这一课。 预训练 vs SFT:分工与数据形态 | | 预训练 | SFT | |---|---|---| | 目标 | 学语言规律和世界知识 | 学会听指令、按格式回答 | | 数据 | 无标注原始文本(网页/书籍/代码) | 标注好的指令-回答对 | | 数据量 | 数万亿 token | 几千到几十万条 | | 成本 | 千卡集群、百万美元级 | 单机多卡甚至一张卡可做 | | 类比 | 读完整座图书馆 | 岗前培训学"怎么接待客户" | SFT 数据长什么样 一个关键细节:计算损失时通常只对 assistant 部分算 loss(用户输入被 mask 掉),因为要教的是"怎么答"而不是"怎么问"。另一个共识是质量远比数量重要:几千条精标数据往往胜过几十万条脏数据。 入门后可以继续追:SFT 之后的 RLHF/DPO 对齐、微调导致的灾难性遗忘,以及 LoRA 等参数高效微调方法。

什么是监督微调(SFT)?它和预训练分别负责什么,两个阶段的训练数据形态有什么不一样?

口语版讲法(约2分钟)

面试官可能的追问

同模块相关题目