什么是 AI Agent?它由哪些部分组成,和只会一问一答的聊天机器人相比,本质区别在哪里?
Agent
口语版讲法(约2分钟)
- 一句话定义:Agent = LLM + 工具 + 循环
- 订机票的例子:聊天机器人只能动嘴,Agent 真的去干
- 两条本质区别:能行动、能根据反馈循环迭代
- ReAct 范式:思考、行动、观察三步循环
- 埋钉子:工具调用靠 Function Calling 机制实现
一句话定义:AI Agent 就是以大模型当大脑、能自己调工具、自己循环迭代把一个目标干完的系统。常见的概括是 Agent 等于 LLM 加工具加循环。 我用一个例子说清它和聊天机器人的区别。你说"帮我订一张明天北京到上海最便宜的机票"。聊天机器人的反应是生成一段话:"建议您打开某某 App,按价格排序筛选",说完就结束了,它只能动嘴。Agent 的反应是真的去干:先思考要查航班,于是调用查询接口;拿到结果一比价,选中一班;下单时发现售罄,它观察到失败,回头换下一班,最后真的完成预订。这个例子体现了两条本质区别:第一是能行动,通过工具调用去查询、执行、影响外部世界,而不只是生成文本;第二是能循环,做完一步看结果,根据反馈调整下一步,失败了会重试换路,而不是一次输出定生死。 这个循环有个经典范式叫 ReAct,每一轮就三步:Thought,想清楚下一步干什么;Action,调用某个工具;Observation,拿到工具的返回结果。然后带着新信息进入下一轮,直到模型判断任务完成,才给出最终答案。除了大脑、工具和循环,完整的 Agent 通常还有记忆模块,记住之前做过什么,以及规划模块,把大目标拆成小步骤。 再打个比方,聊天机器人像一个只负责答疑的顾问,你问它答;Agent 像一个能独立干活的助理,你交代目标,它自己拆任务、用工具、盯结果、最后交付。 最后主动埋个话题:Agent 能调工具,底层靠的是 Function Calling 机制,也就是模型输出结构化的调用请求、由外部程序真正执行再把结果喂回去。这一层怎么实现、工具描述怎么写模型才调得准,是往下深入的第一站,可以展开聊。
关键一句:Agent = LLM + 工具 + 循环;和聊天机器人的本质区别是能行动、能根据反馈迭代,而不只是生成一段文本。
面试官可能的追问
- 【概念辨析】给 ChatGPT 接上一个联网搜索插件,它就算 Agent 了吗?你认为判断一个系统是不是 Agent 的最小标准是什么?
- 【场景切入】要做一个"自动帮用户处理退换货"的系统:查订单、判断政策、调退款接口。用聊天机器人思路和 Agent 思路分别怎么做,差异在哪?