如果你用过 ChatGPT 这类大模型,应该体会过这个痛点:模型的知识停留在训练截止日期,问它"你们公司今天的促销政策是什么",它只能编一个听起来像那么回事的答案。
这就是大模型的天然局限——静态知识。 而 RAG(Retrieval-Augmented Generation,检索增强生成)就是解决这个问题的最成熟方案。本文将带你从零开始在 OpenClaw 上搭建一个知识库,让你的 AI Agent 能基于你自己的文档、手册、FAQ 实时回答。

一、RAG 到底是什么?
不要被术语吓到。RAG 的流程三句话就能讲清楚:
- 先把你的文档切成小段,转换成向量(embedding),存进向量数据库。
- 用户提问时,先搜一遍向量数据库,找出最相关的几个文档片段。
- 把这些片段和用户的问题一起塞给 LLM:用这些参考资料回答问题。
本质上,RAG 就是给 LLM 配了一个"随身参考书库"。模型不再只靠训练记忆回答,而是现场查资料、现场作答。
二、OpenClaw 知识库的三层架构
OpenClaw 的知识库不是简单的"上传文件→聊天",而是一个精心设计的三层流水线:
Layer 1: 文档摄取层
支持多种格式导入: - Markdown / TXT(最适合结构化知识) - PDF(自动文字提取) - HTML / URL(直接爬取网页内容) - 飞书文档 / Notion / Confluence(通过插件接入)
导入后,OpenClaw 会自动执行以下处理: 1. 文档清洗:去除格式标签、页眉页脚、多余空行 2. 智能分段:按语义边界切分,避免把一句话从中间切断(chunk_size 默认 512 tokens,overlap 64 tokens) 3. 元数据标注:记录来源文档、章节标题、更新时间
Layer 2: 向量化与存储层
- Embedding 模型:默认使用 bge-large-zh-v1.5(中文)或 text-embedding-3-small(OpenAI 兼容),支持切换
- 向量数据库:内置 ChromaDB,也支持外接 Milvus / Qdrant / Pinecone
- 检索策略:支持语义搜索、关键词搜索、混合搜索三种模式
Layer 3: 检索增强生成层
这是 OpenClaw 的独到之处——不只是"把文档片段贴给 LLM",而是多步推理式检索:
- Query Rewriting(查询改写):用户问"怎么做",系统先把它改写成更精确的检索查询
- Multi-hop Retrieval(多跳检索):第一轮检索出的内容可能引出第二轮检索(类似联网搜索的深入阅读)
- Relevance Scoring + Reranking(相关性打分 + 重排序):不是简单取 top-k,而是用 Cross-Encoder 重新给候选片段打分
- Context Compression(上下文压缩):避免塞给 LLM 的内容超过上下文窗口
三、实操:5 分钟搭建你的第一个知识库
前提条件
- 已部署 OpenClaw(铠盒设备预装,或自行安装桌面版)
- 访问
kaihe.local进入管理面板
步骤 1:准备文档
创建一个 knowledge/ 文件夹,把你要用的文档放进去。建议从 Markdown 文件开始——结构清晰,分段效果最好。
推荐的文件命名:
knowledge/
├── 01-产品手册.md
├── 02-常见问题FAQ.md
├── 03-售后政策.md
└── 04-竞品对比.md
步骤 2:创建知识库
在 OpenClaw 面板左侧导航点击 知识库 → 新建知识库:
| 配置项 | 推荐值 | 说明 |
|---|---|---|
| 名称 | 产品知识库 | 便于区分多个知识库 |
| Embedding 模型 | bge-large-zh | 中文场景最优 |
| 分段大小 | 512 tokens | 平衡粒度与召回率 |
| 重叠大小 | 64 tokens | 防止关键信息被切两半 |
| 检索策略 | 混合搜索 | 语义 + 关键词互补 |
步骤 3:上传并索引
拖拽文件到上传区 → 等待索引完成(通常 30 秒以内)。索引完成后可以在预览区测试搜索效果。
步骤 4:配置 Agent 调用
在 Agent 配置 → Skill 绑定 中,将知识库绑定到你的客服 Agent:
skills:
- name: knowledge-search
knowledge_base: 产品知识库
trigger: auto
max_results: 5
min_relevance: 0.7
trigger: auto 表示每次用户提问,Agent 自动检索知识库;你也可以设为 trigger: keyword,只在用户消息中包含特定关键词时检索。
步骤 5:测试
在 OpenClaw 聊天界面中直接向绑定了知识库的 Agent 提问,观察回答是否引用了你的文档内容。
四、进阶技巧
1. 多知识库协同
一个电商场景:客服 Agent 同时绑定"产品参数库"+"售后政策库"+"物流规则库",根据用户问题自动路由到对应知识库检索。
2. 知识库自动更新
通过 OpenClaw 的 Cron 技能,可以设置每天凌晨自动爬取官网、飞书文档,增量更新知识库:
cron:
- name: sync-knowledge-daily
schedule: "0 2 * * *"
task: knowledge-sync
source: "https://your-docs.feishu.cn/xxx"
3. 结合人设系统
为不同的人设绑定不同的知识库——"客服小雨"调用产品 FAQ 库、"技术阿强"调用开发文档库——让每个 Agent 各司其职。
五、常见问题
Q:知识库能存多少文档? A:取决于你的设备。铠盒 E1(32GB)实测支持 50 万+ 条文档片段,日常使用绰绰有余。
Q:支持的文档大小有上限吗? A:单个 PDF 建议不超过 50MB,超大文件建议先拆分成章节再导入。
Q:文档更新后需要重新索引吗? A:是的,但 OpenClaw 支持增量索引,只重处理变更的文档,不需要全量重建。
RAG 是让 AI 从"博学的陌生人"变成"了解你业务的同事"的关键一步。在 OpenClaw 上,整个过程被简化到了 5 分钟以内。剩下的,就是持续积累你的知识资产了。
下一步: 如果你想让知识库不仅回答问题、还能主动执行操作(比如"帮我查一下库里有没有这一款,如果有就帮我下单"),可以进一步了解 OpenClaw 的 Function Calling 能力。
tags: RAG, 知识库, 检索增强生成, OpenClaw 教程, 向量数据库, Embedding