什么是向量数据库？它和 MySQL 这类传统数据库有什么本质区别，为什么能在海量向量里快速找到最相似的几条？

Question

吴师兄 · Accepted Answer

答案要点 向量数据库存的是 embedding（把文本、图片等编码成的一串数字），核心操作是"找最相似的 Top-K"，而不是精确匹配 传统数据库回答"等于/大于"这类精确问题，向量数据库回答"和它最像的是哪几条"这类语义问题 逐条暴力比对是 O(N)，千万级向量下每次查询都算不动，所以要用 ANN（近似最近邻） ANN 的思路是提前建好索引，查询时只看一小部分"候选区域"，用少量精度换几个数量级的速度 常见索引：HNSW（分层图）、IVF（先聚类再查桶）、PQ（压缩向量省内存） 核心概念 向量数据库是一类专门存储高维向量、并按"相似度"进行检索的数据库：文本、图片先经过 embedding 模型编码成几百到几千维的向量，语义越接近的内容，向量在空间中的距离越近；查询时输入一个查询向量，数据库返回距离最近的 Top-K 条记录。这正是 RAG（检索增强生成）里"根据问题找相关文档"这一步的基础设施。 和传统数据库的对比 | 维度 | 传统数据库（MySQL） | 向量数据库（Milvus/Faiss 等） | |------|------|------| | 存什么 | 结构化行数据 | 高维向量 + 元数据 | | 怎么查 | 精确条件（WHERE） | 相似度 Top-K（近邻搜索） | | 结果 | 完全匹配的集合 | 按距离排序的"最像的几条" | | 典型索引 | B+ 树 | HNSW / IVF / PQ | ANN 为什么快 暴力检索要把查询向量和库里每一条都算一次距离，N 条就是 N 次计算，规模一大就扛不住 ANN 提前建索引：比如 HNSW 把向量组织成多层"高速公路网"，查询时从高层粗定位、逐层往下细找，只访问极少数节点 代价是"近似"：可能漏掉个别真正的最近邻，用召回率（找回来多少真答案）衡量；实践中 95%+ 的召回换来毫秒级响应，非常划算 入门之后，可以往 HNSW/IVF 的原理细节、召回率与延迟的权衡、混合检索方向深入。

什么是向量数据库？它和 MySQL 这类传统数据库有什么本质区别，为什么能在海量向量里快速找到最相似的几条？

口语版讲法(约2分钟)

面试官可能的追问

同模块相关题目