第1章 · 概念入门阅读时间 10 分钟

1.2 大模型、Agent、Tool、Skill 到底是什么关系

通过本文你将全面了解大模型、Agent、Tool、Skill 到底是什么关系的核心概念、实际应用方法和最佳实践。

概述

一、先用一个生活例子让你建立直观感受

在进入技术细节之前，先用一个生活例子让你"哦，原来是这样"的感受。

想象你有一个私人助理：

┌─────────────────────────────────────────────────────┐
│                     你的私人助理                      │
├─────────────────────────────────────────────────────┤
│                                                     │
│   🧠 大脑（模型/LLM）= 这个助理的"智商"           │
│      → 理解你说的话                                  │
│      → 分析要做什么事                                 │
│      → 制定计划                                      │
│                                                     │
│   🔧 工具（Tools）= 助理的"能力"                   │
│      → 查阅文件                                     │
│      → 发邮件                                      │
│      → 打电话                                      │
│      → 上网搜索                                     │
│                                                     │
│   📖 技能（Skills）= 工具的"使用说明书"            │
│      → 告诉助理什么时候用什么工具                     │
│      → 怎么正确地调用                               │
│                                                     │
│   🤖 Agent = 这个完整的人                           │
│      → 大脑 + 工具 + 技能 + 记忆 的组合            │
│                                                     │
└─────────────────────────────────────────────────────┘

简单说：

大模型 = 助理的脑子（思考能力）
工具 = 助理的手（执行能力）
技能 = 助理的说明书（什么时候用手、怎么用）
Agent = 完整的人（脑子+手+说明书）

二、逐个拆解每个概念

2.1 大模型（Model / LLM）

定义：大模型是 AI 的"大脑"，负责理解和生成文字。

类比：就像人的大脑，决定你：

读懂别人说的话是什么意思
思考怎么回应
规划做事的步骤

在 OpenClaw 中的体现：

当前使用的大模型：MiniMax-M2.7-highspeed
→ 这个模型决定了我（AI）能不能准确理解你的意思
→ 决定我回复的质量高低

常见的大模型：

模型	特点	适合场景
MiniMax-M2.7	自我迭代能力强	复杂分析、深度推理
DeepSeek-R1	推理能力强	数学、代码、逻辑分析
阿里云通义	均衡	通用对话
OpenAI GPT-4	通用能力强	复杂多模态任务

2.2 工具（Tools）

定义：工具是 Agent 可以调用的外部能力，让 AI 能"做事"而不是只"说话"。

类比：就像人的手，能实际执行操作

没有工具的 AI 只能这样：

你：帮我查一下今天天气
AI：今天天气晴，温度25度
（它只是回答，没有实际帮你做事）

有工具的 AI 可以这样：

你：帮我把这份报告发给老板
AI：→ 调用"发邮件"工具 → 登录邮箱 → 附加文件 → 发送成功
（它真的帮你把事做了）

在 OpenClaw 中内置的工具：

工具类型	能做什么	调用方式
飞书工具	读写飞书文档、表格、知识库	飞书插件
文件工具	读取/写入本地文件	内置
网页搜索	搜索互联网信息	SearXNG
图片生成	调用 AI 生成图片	MiniMax API
执行代码	运行 Python/Shell 脚本	内置
日历工具	创建/查看日历事件	飞书日历
任务工具	创建/管理任务清单	飞书任务

2.3 技能（Skill）

定义：Skill 是一套规则，告诉 AI "在什么情况下调用哪个工具，怎么调用"。

类比：就像工具的"使用说明书"和"使用时机指南"

为什么需要 Skill？

假设没有 Skill，AI 收到一张图片：

AI：这张图片是一个销售的图表...
（它只会"看"，不会"做"）

有了 Skill 告诉它"看到图片就调用图片生成工具"：

AI：→ 检测到用户发了图片请求
   → 匹配到"生图技能"
   → 提取描述
   → 调用 MiniMax 图片生成 API
   → 返回图片

Skill 不是工具本身，而是调用工具的"说明书"

2.4 Agent（智能体）

定义：Agent = 大脑 + 工具 + 技能 + 记忆的完整系统

类比：就是一个完整的"人"

Agent = 大脑（模型）× 执行力（工具）× 经验（技能）× 记忆（Memory）

三、四者的关系图

用一张图说清楚它们的关系：

                    ┌─────────────────────────┐
                    │        Agent            │
                    │    （完整的智能体）       │
                    └───────────┬─────────────┘
                                │
                    ┌───────────┴─────────────┐
                    │                         │
                    ↓                         ↓
          ┌─────────────────┐     ┌─────────────────────┐
          │   大模型 (LLM)   │     │    工具 (Tools)     │
          │    核心大脑       │ ←  │    执行能力          │
          │  • 理解意图       │     │  • 搜索             │
          │  • 制定计划       │     │  • 发消息           │
          │  • 生成回复       │     │  • 读写文件         │
          │  • 调用工具       │     │  • 生成图片         │
          └─────────┬───────┘     └─────────┬─────────┘
                    │                         │
                    └───────────┬─────────────┘
                                │
                    ┌───────────┴─────────────┐
                    │    技能 (Skills)        │
                    │    工具使用说明书         │
                    │  • 什么时候用什么工具    │
                    │  • 工具怎么调用          │
                    │  • 参数怎么构造          │
                    └─────────────────────────┘
                                ↑
                    ┌───────────┴─────────────┐
                    │    记忆 (Memory)        │
                    │    上下文存储           │
                    │  • 短期：当前对话      │
                    │  • 长期：重要事实       │
                    └─────────────────────────┘

四、用一个完整例子说明配合流程

场景：你发了一张产品图给 AI，说"帮我把这个图的风格换成水彩画"

完整流程：

Step 1: 接收消息 ┌─────────────────────────────────────┐ │ 你发了一张图片 + "帮我换成水彩风格" │ └────────────────┬────────────────────┘ ↓ Step 2: 大脑理解（模型） ┌─────────────────────────────────────┐ │ 模型理解：用户要我做"图生图"任务 │ │ 并且是"水彩风格" │ └────────────────┬────────────────────┘ ↓ Step 3: 匹配技能（Skill） ┌─────────────────────────────────────┐ │ AI 查 Skills："图生图" → 匹配到 │ │ "MiniMax图片生成技能" │ │ → 读取技能的说明：水彩风格用 │ │ image-01-live 模型 + style参数 │ └────────────────┬────────────────────┘ ↓ Step 4: 调用工具（Tool） ┌─────────────────────────────────────┐ │ 按技能说明构造请求： │ │ → 模型: image-01-live │ │ → prompt: 原图描述 + 水彩风格 │ │ → style: 水彩参数 │ │ → 调用 MiniMax 图生图 API │ └────────────────┬────────────────────┘ ↓ Step 5: 获取结果 ┌─────────────────────────────────────┐ │ API 返回生成的图片 URL │ └────────────────┬────────────────────┘ ↓

Step 6: 回复用户 ┌─────────────────────────────────────┐ │ 把生成的图片发送给你 │ └─────────────────────────────────────┘

五、四者缺一不可的情况

如果缺少某个部分，会发生什么：

缺少的部分	结果	例子
缺少大模型	AI 无法理解你的意思	收到消息只会乱回复
缺少工具	AI 只能说话，不能做事	知道要发邮件，但发不出去
缺少技能	AI 不知道什么时候用什么工具	知道要做事，但不知道怎么做
缺少记忆	每次对话都从零开始	无法记住你是谁、之前聊过什么

六、在 OpenClaw 中的实际对应

概念	OpenClaw 中的实际存在	配置文件位置
大模型	`MiniMax-M2.7-highspeed` 等	`models.providers`
工具	飞书读写、文件操作、图片生成等	内置 + 插件
技能	Skills 目录下的 `.md` 文件	`~/.openclaw/workspace/skills/`
Agent	OpenClaw 本身	整体系统

七、常见疑问

Q: Skill 和 Tool 有什么区别？

答：Tool 是工具本身（刀），Skill 是使用刀的方法（切菜的技巧）。一个厨师有刀不代表会切菜，需要切菜说明书。

Q: 大模型和 Agent 是一样的吗？

答：不一样。大模型只是 Agent 的"大脑"部分，Agent = 大脑 + 工具 + 技能 + 记忆。

Q: 能不能换不同的大模型？

答：可以。OpenClaw 支持配置多个模型，可以通过配置文件切换。

Q: Skill 是不是要写代码？

答：不需要。Skill 是一份 Markdown 说明文档，描述清楚"什么场景用什么工具、怎么调用"就行。

Q: 为什么大模型参数越大越好？

A: 参数量大代表更强的学习和表达能力，但也不是绝对的，实际效果还取决于训练数据质量。

Q: 为什么需要多个模型组合使用？

A: 不同模型擅长不同任务：代码用 Code 模型，对话用 Chat 模型，分析用 Reasoning 模型。

Q: 模型本地部署和云端 API 哪个好？

A: 本地部署隐私好但成本高；云端 API 即用即付，但数据隐私需考虑。

Q: Tool 和 Plugin 是一回事吗？

A: 不是。Tool 是 Agent 调用外部能力的接口，Plugin 是 OpenClaw 的系统级扩展机制。

Q: LLM 和 LLM Agent 是一回事吗？

A: 不是。LLM 只是模型，LLM Agent 是基于 LLM 构建的智能系统。

Q: 为什么需要 Tool 调用能力？

A: 让 AI 能执行实际操作，如查数据、发邮件、操作文件，而不只是回答问题。

八、下一步学什么

1.3 OpenClaw 在 AI 系统中的定位是什么 → 理解你部署的这套系统在整个 AI 生态中的位置
1.4 核心概念一：Gateway（网关）是什么 → 理解 OpenClaw 的核心架构

如有疑问，欢迎在群内提问！