请完整讲一遍 RAG 系统从拿到原始文档到生成最终答案的全流程：一共分几步？每一步分别在做什么、起什么作用？

Question

吴师兄 · Accepted Answer

答案要点 全流程五大步：文档解析 → 分块 → 向量化 → 检索 → 生成 前三步是离线建库：把原始文档加工成可检索的知识库，提前做好 后两步是在线问答：用户提问时实时执行，检索资料再生成答案 分块是最容易被忽视却影响最大的一步：块太大噪声多，块太小语义被切断 排查 RAG 效果差的问题，就按这条链路逐步定位是哪一环丢了分 核心概念 RAG 流程是指把原始文档加工成可检索的知识库，并在用户提问时检索相关内容、交给大模型生成答案的完整链路，通常分为解析、分块、向量化、检索、生成五步。前三步离线完成，后两步在线执行。 五步详解 文档解析：把 PDF、Word、网页等各种格式的原始文档，转换成干净的纯文本。作用是“去壳取肉”——去掉页眉页脚、乱码、排版噪声，只留下有用内容。解析得脏，后面全部遭殃。 分块（Chunking）：把长文本切成一段段大小合适的“知识块”。因为检索是按块进行的，块的边界决定了模型将来“看到”的资料长什么样。常按段落、标题层级切，并让相邻块有少量重叠，避免语义被拦腰切断。 向量化（Embedding）：用嵌入模型把每个文本块变成一串数字（向量）。它的神奇之处在于：意思相近的文本，向量在空间中的位置也相近。所有向量存入向量数据库，相当于给知识库建好了“按语义查找”的索引。 检索：用户提问时，把问题也用同一个模型向量化，然后在向量数据库里找出与问题最相似的 Top-K 个知识块。这一步决定了模型“开卷考试”时翻到的是不是正确的那几页书。 生成：把用户问题和检索到的知识块，按提示词模板拼在一起交给大模型，要求它“根据给定资料回答”，输出的答案就是用户最终看到的结果。 一句口诀帮助记忆：解析洗数据，分块定粒度，向量建索引，检索找资料，生成出答案。前三步做得好不好，直接决定后两步的上限。 入门之后，可以往检索优化方向深入：重排（Rerank）、混合检索（关键词 + 向量）、查询改写，以及不同分块策略的对比实验。

请完整讲一遍 RAG 系统从拿到原始文档到生成最终答案的全流程：一共分几步？每一步分别在做什么、起什么作用？

口语版讲法(约2分钟)

面试官可能的追问

同模块相关题目