什么是 ReAct 框架?它的"推理+行动"交替循环是怎么运转的,相比让模型一次性给出答案好在哪里?

Question

吴师兄 · Accepted Answer

答案要点 ReAct = Reason(推理)+ Act(行动),让模型"边想边做"而不是一口气答完 核心是循环:Thought(思考)→ Action(调工具)→ Observation(看结果)→ 再思考,直到得出最终答案 对比一次性回答:每一步都有真实反馈兜底,能纠错、能拆解复杂任务、轨迹可解释 它是最经典的 Agent 执行范式,出自 2022 年的论文 ReAct 代价是多轮模型调用,延迟和 token 成本更高,还要防死循环 核心概念 ReAct 是一种让大模型把"推理过程"和"工具行动"交替进行的执行框架:模型先写下思考,再执行一个动作,观察工具返回的结果后继续思考,循环往复直到任务完成。 一个循环长什么样 以"姚明的妻子比他小几岁"为例: Thought:得先查姚明妻子是谁 → Action:搜索"姚明 妻子" → Observation:叶莉,1981 年生 Thought:再确认姚明出生年份 → Action:搜索"姚明 出生年份" → Observation:1980 年 Thought:1981−1980=1,可以作答了 → Final Answer:小 1 岁 为什么比一次性回答强 | 维度 | 一次性回答 | ReAct | |---|---|---| | 事实来源 | 全凭参数记忆,易幻觉 | 每步有真实 Observation 支撑 | | 复杂任务 | 一步到位容易漏 | 自动拆成多个子步骤 | | 出错之后 | 无法挽回 | 下一轮 Thought 可换策略重试 | | 可解释性 | 黑盒 | 思考轨迹全程可见,方便调试 | 本质上,ReAct 把"闭卷考试"变成了"开卷考试加草稿纸":允许查资料、允许打草稿、允许写错了划掉重来。 代价也要心里有数:一个任务要跑多轮模型调用,延迟和费用成倍增加,还可能陷入死循环(反复搜同一个词),所以工程上必须设最大步数和退出条件。入门后可以对比 Plan-and-Execute、Reflexion 等改进范式,再看看 LangGraph 等框架里 ReAct 的真实实现。

什么是 ReAct 框架?它的"推理+行动"交替循环是怎么运转的,相比让模型一次性给出答案好在哪里?

口语版讲法(约2分钟)

面试官可能的追问

同模块相关题目