概述


一、先用一个生活例子让你建立直观感受

在进入技术细节之前,先用一个生活例子让你"哦,原来是这样"的感受。

想象你有一个私人助理:

┌─────────────────────────────────────────────────────┐
│                     你的私人助理                      │
├─────────────────────────────────────────────────────┤
│                                                     │
│   🧠 大脑(模型/LLM)= 这个助理的"智商"           │
│      → 理解你说的话                                  │
│      → 分析要做什么事                                 │
│      → 制定计划                                      │
│                                                     │
│   🔧 工具(Tools)= 助理的"能力"                   │
│      → 查阅文件                                     │
│      → 发邮件                                      │
│      → 打电话                                      │
│      → 上网搜索                                     │
│                                                     │
│   📖 技能(Skills)= 工具的"使用说明书"            │
│      → 告诉助理什么时候用什么工具                     │
│      → 怎么正确地调用                               │
│                                                     │
│   🤖 Agent = 这个完整的人                           │
│      → 大脑 + 工具 + 技能 + 记忆 的组合            │
│                                                     │
└─────────────────────────────────────────────────────┘

简单说:

  • 大模型 = 助理的脑子(思考能力)
  • 工具 = 助理的手(执行能力)
  • 技能 = 助理的说明书(什么时候用手、怎么用)
  • Agent = 完整的人(脑子+手+说明书)

二、逐个拆解每个概念

2.1 大模型(Model / LLM)

定义:大模型是 AI 的"大脑",负责理解和生成文字。

类比:就像人的大脑,决定你:

  • 读懂别人说的话是什么意思
  • 思考怎么回应
  • 规划做事的步骤

在 OpenClaw 中的体现

当前使用的大模型:MiniMax-M2.7-highspeed
→ 这个模型决定了我(AI)能不能准确理解你的意思
→ 决定我回复的质量高低

常见的大模型

模型特点适合场景
MiniMax-M2.7自我迭代能力强复杂分析、深度推理
DeepSeek-R1推理能力强数学、代码、逻辑分析
阿里云通义均衡通用对话
OpenAI GPT-4通用能力强复杂多模态任务

2.2 工具(Tools)

定义:工具是 Agent 可以调用的外部能力,让 AI 能"做事"而不是只"说话"。

类比:就像人的手,能实际执行操作

没有工具的 AI 只能这样

你:帮我查一下今天天气
AI:今天天气晴,温度25度
(它只是回答,没有实际帮你做事)

有工具的 AI 可以这样

你:帮我把这份报告发给老板
AI:→ 调用"发邮件"工具 → 登录邮箱 → 附加文件 → 发送成功
(它真的帮你把事做了)

在 OpenClaw 中内置的工具

工具类型能做什么调用方式
飞书工具读写飞书文档、表格、知识库飞书插件
文件工具读取/写入本地文件内置
网页搜索搜索互联网信息SearXNG
图片生成调用 AI 生成图片MiniMax API
执行代码运行 Python/Shell 脚本内置
日历工具创建/查看日历事件飞书日历
任务工具创建/管理任务清单飞书任务

2.3 技能(Skill)

定义:Skill 是一套规则,告诉 AI "在什么情况下调用哪个工具,怎么调用"。

类比:就像工具的"使用说明书"和"使用时机指南"

为什么需要 Skill?

假设没有 Skill,AI 收到一张图片:

AI:这张图片是一个销售的图表...
(它只会"看",不会"做")

有了 Skill 告诉它"看到图片就调用图片生成工具":

AI:→ 检测到用户发了图片请求
   → 匹配到"生图技能"
   → 提取描述
   → 调用 MiniMax 图片生成 API
   → 返回图片

Skill 不是工具本身,而是调用工具的"说明书"


2.4 Agent(智能体)

定义:Agent = 大脑 + 工具 + 技能 + 记忆 的完整系统

类比:就是一个完整的"人"

Agent = 大脑(模型)× 执行力(工具)× 经验(技能)× 记忆(Memory)

三、四者的关系图

用一张图说清楚它们的关系:

                    ┌─────────────────────────┐
                    │        Agent            │
                    │    (完整的智能体)       │
                    └───────────┬─────────────┘
                                │
                    ┌───────────┴─────────────┐
                    │                         │
                    ↓                         ↓
          ┌─────────────────┐     ┌─────────────────────┐
          │   大模型 (LLM)   │     │    工具 (Tools)     │
          │    核心大脑       │ ←  │    执行能力          │
          │  • 理解意图       │     │  • 搜索             │
          │  • 制定计划       │     │  • 发消息           │
          │  • 生成回复       │     │  • 读写文件         │
          │  • 调用工具       │     │  • 生成图片         │
          └─────────┬───────┘     └─────────┬─────────┘
                    │                         │
                    └───────────┬─────────────┘
                                │
                    ┌───────────┴─────────────┐
                    │    技能 (Skills)        │
                    │    工具使用说明书         │
                    │  • 什么时候用什么工具    │
                    │  • 工具怎么调用          │
                    │  • 参数怎么构造          │
                    └─────────────────────────┘
                                ↑
                    ┌───────────┴─────────────┐
                    │    记忆 (Memory)        │
                    │    上下文存储           │
                    │  • 短期:当前对话      │
                    │  • 长期:重要事实       │
                    └─────────────────────────┘

四、用一个完整例子说明配合流程

场景:你发了一张产品图给 AI,说"帮我把这个图的风格换成水彩画"

完整流程

Step 1: 接收消息
┌─────────────────────────────────────┐
│ 你发了一张图片 + "帮我换成水彩风格"    │
└────────────────┬────────────────────┘
                 ↓

Step 2: 大脑理解(模型) ┌─────────────────────────────────────┐ │ 模型理解:用户要我做"图生图"任务 │ │ 并且是"水彩风格" │ └────────────────┬────────────────────┘ ↓

Step 3: 匹配技能(Skill) ┌─────────────────────────────────────┐ │ AI 查 Skills:"图生图" → 匹配到 │ │ "MiniMax图片生成技能" │ │ → 读取技能的说明:水彩风格用 │ │ image-01-live 模型 + style参数 │ └────────────────┬────────────────────┘ ↓

Step 4: 调用工具(Tool) ┌─────────────────────────────────────┐ │ 按技能说明构造请求: │ │ → 模型: image-01-live │ │ → prompt: 原图描述 + 水彩风格 │ │ → style: 水彩参数 │ │ → 调用 MiniMax 图生图 API │ └────────────────┬────────────────────┘ ↓

Step 5: 获取结果 ┌─────────────────────────────────────┐ │ API 返回生成的图片 URL │ └────────────────┬────────────────────┘ ↓

Step 6: 回复用户 ┌─────────────────────────────────────┐ │ 把生成的图片发送给你 │ └─────────────────────────────────────┘


五、四者缺一不可的情况

如果缺少某个部分,会发生什么:

缺少的部分结果例子
缺少大模型AI 无法理解你的意思收到消息只会乱回复
缺少工具AI 只能说话,不能做事知道要发邮件,但发不出去
缺少技能AI 不知道什么时候用什么工具知道要做事,但不知道怎么做
缺少记忆每次对话都从零开始无法记住你是谁、之前聊过什么

六、在 OpenClaw 中的实际对应

概念OpenClaw 中的实际存在配置文件位置
大模型MiniMax-M2.7-highspeedmodels.providers
工具飞书读写、文件操作、图片生成等内置 + 插件
技能Skills 目录下的 .md 文件~/.openclaw/workspace/skills/
AgentOpenClaw 本身整体系统

七、常见疑问

Q: Skill 和 Tool 有什么区别?
A:

答:Tool 是工具本身(刀),Skill 是使用刀的方法(切菜的技巧)。一个厨师有刀不代表会切菜,需要切菜说明书。

Q: 大模型和 Agent 是一样的吗?
A:

答:不一样。大模型只是 Agent 的"大脑"部分,Agent = 大脑 + 工具 + 技能 + 记忆。

Q: 能不能换不同的大模型?
A:

答:可以。OpenClaw 支持配置多个模型,可以通过配置文件切换。

Q: Skill 是不是要写代码?
A:

答:不需要。Skill 是一份 Markdown 说明文档,描述清楚"什么场景用什么工具、怎么调用"就行。

Q: 为什么大模型参数越大越好?
A: 参数量大代表更强的学习和表达能力,但也不是绝对的,实际效果还取决于训练数据质量。
Q: 为什么需要多个模型组合使用?
A: 不同模型擅长不同任务:代码用 Code 模型,对话用 Chat 模型,分析用 Reasoning 模型。
Q: 模型本地部署和云端 API 哪个好?
A: 本地部署隐私好但成本高;云端 API 即用即付,但数据隐私需考虑。
Q: Tool 和 Plugin 是一回事吗?
A: 不是。Tool 是 Agent 调用外部能力的接口,Plugin 是 OpenClaw 的系统级扩展机制。
Q: LLM 和 LLM Agent 是一回事吗?
A: 不是。LLM 只是模型,LLM Agent 是基于 LLM 构建的智能系统。
Q: 为什么需要 Tool 调用能力?
A: 让 AI 能执行实际操作,如查数据、发邮件、操作文件,而不只是回答问题。

八、下一步学什么

  • 1.3 OpenClaw 在 AI 系统中的定位是什么 → 理解你部署的这套系统在整个 AI 生态中的位置
  • 1.4 核心概念一:Gateway(网关)是什么 → 理解 OpenClaw 的核心架构

如有疑问,欢迎在群内提问!