OpenClaw 知识库搭建实战:从 RAG 原理到 7×24 小时自动应答

Published on: 2026-05-13

如果你用过 ChatGPT 这类大模型,应该体会过这个痛点:模型的知识停留在训练截止日期,问它"你们公司今天的促销政策是什么",它只能编一个听起来像那么回事的答案。

这就是大模型的天然局限——静态知识。 而 RAG(Retrieval-Augmented Generation,检索增强生成)就是解决这个问题的最成熟方案。本文将带你从零开始在 OpenClaw 上搭建一个知识库,让你的 AI Agent 能基于你自己的文档、手册、FAQ 实时回答。


插图

一、RAG 到底是什么?

不要被术语吓到。RAG 的流程三句话就能讲清楚:

  1. 先把你的文档切成小段,转换成向量(embedding),存进向量数据库。
  2. 用户提问时,先搜一遍向量数据库,找出最相关的几个文档片段。
  3. 把这些片段和用户的问题一起塞给 LLM:用这些参考资料回答问题。

本质上,RAG 就是给 LLM 配了一个"随身参考书库"。模型不再只靠训练记忆回答,而是现场查资料、现场作答


二、OpenClaw 知识库的三层架构

OpenClaw 的知识库不是简单的"上传文件→聊天",而是一个精心设计的三层流水线

Layer 1: 文档摄取层

支持多种格式导入: - Markdown / TXT(最适合结构化知识) - PDF(自动文字提取) - HTML / URL(直接爬取网页内容) - 飞书文档 / Notion / Confluence(通过插件接入)

导入后,OpenClaw 会自动执行以下处理: 1. 文档清洗:去除格式标签、页眉页脚、多余空行 2. 智能分段:按语义边界切分,避免把一句话从中间切断(chunk_size 默认 512 tokens,overlap 64 tokens) 3. 元数据标注:记录来源文档、章节标题、更新时间

Layer 2: 向量化与存储层

  • Embedding 模型:默认使用 bge-large-zh-v1.5(中文)或 text-embedding-3-small(OpenAI 兼容),支持切换
  • 向量数据库:内置 ChromaDB,也支持外接 Milvus / Qdrant / Pinecone
  • 检索策略:支持语义搜索、关键词搜索、混合搜索三种模式

Layer 3: 检索增强生成层

这是 OpenClaw 的独到之处——不只是"把文档片段贴给 LLM",而是多步推理式检索

  1. Query Rewriting(查询改写):用户问"怎么做",系统先把它改写成更精确的检索查询
  2. Multi-hop Retrieval(多跳检索):第一轮检索出的内容可能引出第二轮检索(类似联网搜索的深入阅读)
  3. Relevance Scoring + Reranking(相关性打分 + 重排序):不是简单取 top-k,而是用 Cross-Encoder 重新给候选片段打分
  4. Context Compression(上下文压缩):避免塞给 LLM 的内容超过上下文窗口

三、实操:5 分钟搭建你的第一个知识库

前提条件

  • 已部署 OpenClaw(铠盒设备预装,或自行安装桌面版)
  • 访问 kaihe.local 进入管理面板

步骤 1:准备文档

创建一个 knowledge/ 文件夹,把你要用的文档放进去。建议从 Markdown 文件开始——结构清晰,分段效果最好。

推荐的文件命名:

knowledge/
├── 01-产品手册.md
├── 02-常见问题FAQ.md
├── 03-售后政策.md
└── 04-竞品对比.md

步骤 2:创建知识库

在 OpenClaw 面板左侧导航点击 知识库新建知识库

配置项 推荐值 说明
名称 产品知识库 便于区分多个知识库
Embedding 模型 bge-large-zh 中文场景最优
分段大小 512 tokens 平衡粒度与召回率
重叠大小 64 tokens 防止关键信息被切两半
检索策略 混合搜索 语义 + 关键词互补

步骤 3:上传并索引

拖拽文件到上传区 → 等待索引完成(通常 30 秒以内)。索引完成后可以在预览区测试搜索效果。

步骤 4:配置 Agent 调用

Agent 配置Skill 绑定 中,将知识库绑定到你的客服 Agent:

skills:
  - name: knowledge-search
    knowledge_base: 产品知识库
    trigger: auto
    max_results: 5
    min_relevance: 0.7

trigger: auto 表示每次用户提问,Agent 自动检索知识库;你也可以设为 trigger: keyword,只在用户消息中包含特定关键词时检索。

步骤 5:测试

在 OpenClaw 聊天界面中直接向绑定了知识库的 Agent 提问,观察回答是否引用了你的文档内容。


四、进阶技巧

1. 多知识库协同

一个电商场景:客服 Agent 同时绑定"产品参数库"+"售后政策库"+"物流规则库",根据用户问题自动路由到对应知识库检索。

2. 知识库自动更新

通过 OpenClaw 的 Cron 技能,可以设置每天凌晨自动爬取官网、飞书文档,增量更新知识库:

cron:
  - name: sync-knowledge-daily
    schedule: "0 2 * * *"
    task: knowledge-sync
    source: "https://your-docs.feishu.cn/xxx"

3. 结合人设系统

为不同的人设绑定不同的知识库——"客服小雨"调用产品 FAQ 库、"技术阿强"调用开发文档库——让每个 Agent 各司其职。


五、常见问题

Q:知识库能存多少文档? A:取决于你的设备。铠盒 E1(32GB)实测支持 50 万+ 条文档片段,日常使用绰绰有余。

Q:支持的文档大小有上限吗? A:单个 PDF 建议不超过 50MB,超大文件建议先拆分成章节再导入。

Q:文档更新后需要重新索引吗? A:是的,但 OpenClaw 支持增量索引,只重处理变更的文档,不需要全量重建。


RAG 是让 AI 从"博学的陌生人"变成"了解你业务的同事"的关键一步。在 OpenClaw 上,整个过程被简化到了 5 分钟以内。剩下的,就是持续积累你的知识资产了。

下一步: 如果你想让知识库不仅回答问题、还能主动执行操作(比如"帮我查一下库里有没有这一款,如果有就帮我下单"),可以进一步了解 OpenClaw 的 Function Calling 能力。


tags: RAG, 知识库, 检索增强生成, OpenClaw 教程, 向量数据库, Embedding

© KAIHE AI - Agent Computer Specialist