1.2 大模型、Agent、Tool、Skill 到底是什么关系
通过本文你将全面了解大模型、Agent、Tool、Skill 到底是什么关系的核心概念、实际应用方法和最佳实践。
概述
一、先用一个生活例子让你建立直观感受
在进入技术细节之前,先用一个生活例子让你"哦,原来是这样"的感受。
想象你有一个私人助理:
┌─────────────────────────────────────────────────────┐
│ 你的私人助理 │
├─────────────────────────────────────────────────────┤
│ │
│ 🧠 大脑(模型/LLM)= 这个助理的"智商" │
│ → 理解你说的话 │
│ → 分析要做什么事 │
│ → 制定计划 │
│ │
│ 🔧 工具(Tools)= 助理的"能力" │
│ → 查阅文件 │
│ → 发邮件 │
│ → 打电话 │
│ → 上网搜索 │
│ │
│ 📖 技能(Skills)= 工具的"使用说明书" │
│ → 告诉助理什么时候用什么工具 │
│ → 怎么正确地调用 │
│ │
│ 🤖 Agent = 这个完整的人 │
│ → 大脑 + 工具 + 技能 + 记忆 的组合 │
│ │
└─────────────────────────────────────────────────────┘
简单说:
- 大模型 = 助理的脑子(思考能力)
- 工具 = 助理的手(执行能力)
- 技能 = 助理的说明书(什么时候用手、怎么用)
- Agent = 完整的人(脑子+手+说明书)
二、逐个拆解每个概念
2.1 大模型(Model / LLM)
定义:大模型是 AI 的"大脑",负责理解和生成文字。
类比:就像人的大脑,决定你:
- 读懂别人说的话是什么意思
- 思考怎么回应
- 规划做事的步骤
在 OpenClaw 中的体现:
当前使用的大模型:MiniMax-M2.7-highspeed
→ 这个模型决定了我(AI)能不能准确理解你的意思
→ 决定我回复的质量高低
常见的大模型:
| 模型 | 特点 | 适合场景 |
|---|---|---|
| MiniMax-M2.7 | 自我迭代能力强 | 复杂分析、深度推理 |
| DeepSeek-R1 | 推理能力强 | 数学、代码、逻辑分析 |
| 阿里云通义 | 均衡 | 通用对话 |
| OpenAI GPT-4 | 通用能力强 | 复杂多模态任务 |
2.2 工具(Tools)
定义:工具是 Agent 可以调用的外部能力,让 AI 能"做事"而不是只"说话"。
类比:就像人的手,能实际执行操作
没有工具的 AI 只能这样:
你:帮我查一下今天天气
AI:今天天气晴,温度25度
(它只是回答,没有实际帮你做事)
有工具的 AI 可以这样:
你:帮我把这份报告发给老板
AI:→ 调用"发邮件"工具 → 登录邮箱 → 附加文件 → 发送成功
(它真的帮你把事做了)
在 OpenClaw 中内置的工具:
| 工具类型 | 能做什么 | 调用方式 |
|---|---|---|
| 飞书工具 | 读写飞书文档、表格、知识库 | 飞书插件 |
| 文件工具 | 读取/写入本地文件 | 内置 |
| 网页搜索 | 搜索互联网信息 | SearXNG |
| 图片生成 | 调用 AI 生成图片 | MiniMax API |
| 执行代码 | 运行 Python/Shell 脚本 | 内置 |
| 日历工具 | 创建/查看日历事件 | 飞书日历 |
| 任务工具 | 创建/管理任务清单 | 飞书任务 |
2.3 技能(Skill)
定义:Skill 是一套规则,告诉 AI "在什么情况下调用哪个工具,怎么调用"。
类比:就像工具的"使用说明书"和"使用时机指南"
为什么需要 Skill?
假设没有 Skill,AI 收到一张图片:
AI:这张图片是一个销售的图表...
(它只会"看",不会"做")
有了 Skill 告诉它"看到图片就调用图片生成工具":
AI:→ 检测到用户发了图片请求
→ 匹配到"生图技能"
→ 提取描述
→ 调用 MiniMax 图片生成 API
→ 返回图片
Skill 不是工具本身,而是调用工具的"说明书"
2.4 Agent(智能体)
定义:Agent = 大脑 + 工具 + 技能 + 记忆 的完整系统
类比:就是一个完整的"人"
Agent = 大脑(模型)× 执行力(工具)× 经验(技能)× 记忆(Memory)
三、四者的关系图
用一张图说清楚它们的关系:
┌─────────────────────────┐
│ Agent │
│ (完整的智能体) │
└───────────┬─────────────┘
│
┌───────────┴─────────────┐
│ │
↓ ↓
┌─────────────────┐ ┌─────────────────────┐
│ 大模型 (LLM) │ │ 工具 (Tools) │
│ 核心大脑 │ ← │ 执行能力 │
│ • 理解意图 │ │ • 搜索 │
│ • 制定计划 │ │ • 发消息 │
│ • 生成回复 │ │ • 读写文件 │
│ • 调用工具 │ │ • 生成图片 │
└─────────┬───────┘ └─────────┬─────────┘
│ │
└───────────┬─────────────┘
│
┌───────────┴─────────────┐
│ 技能 (Skills) │
│ 工具使用说明书 │
│ • 什么时候用什么工具 │
│ • 工具怎么调用 │
│ • 参数怎么构造 │
└─────────────────────────┘
↑
┌───────────┴─────────────┐
│ 记忆 (Memory) │
│ 上下文存储 │
│ • 短期:当前对话 │
│ • 长期:重要事实 │
└─────────────────────────┘
四、用一个完整例子说明配合流程
场景:你发了一张产品图给 AI,说"帮我把这个图的风格换成水彩画"
完整流程:
Step 1: 接收消息
┌─────────────────────────────────────┐
│ 你发了一张图片 + "帮我换成水彩风格" │
└────────────────┬────────────────────┘
↓Step 2: 大脑理解(模型)
┌─────────────────────────────────────┐
│ 模型理解:用户要我做"图生图"任务 │
│ 并且是"水彩风格" │
└────────────────┬────────────────────┘
↓
Step 3: 匹配技能(Skill)
┌─────────────────────────────────────┐
│ AI 查 Skills:"图生图" → 匹配到 │
│ "MiniMax图片生成技能" │
│ → 读取技能的说明:水彩风格用 │
│ image-01-live 模型 + style参数 │
└────────────────┬────────────────────┘
↓
Step 4: 调用工具(Tool)
┌─────────────────────────────────────┐
│ 按技能说明构造请求: │
│ → 模型: image-01-live │
│ → prompt: 原图描述 + 水彩风格 │
│ → style: 水彩参数 │
│ → 调用 MiniMax 图生图 API │
└────────────────┬────────────────────┘
↓
Step 5: 获取结果
┌─────────────────────────────────────┐
│ API 返回生成的图片 URL │
└────────────────┬────────────────────┘
↓
Step 6: 回复用户
┌─────────────────────────────────────┐
│ 把生成的图片发送给你 │
└─────────────────────────────────────┘
五、四者缺一不可的情况
如果缺少某个部分,会发生什么:
| 缺少的部分 | 结果 | 例子 |
|---|---|---|
| 缺少大模型 | AI 无法理解你的意思 | 收到消息只会乱回复 |
| 缺少工具 | AI 只能说话,不能做事 | 知道要发邮件,但发不出去 |
| 缺少技能 | AI 不知道什么时候用什么工具 | 知道要做事,但不知道怎么做 |
| 缺少记忆 | 每次对话都从零开始 | 无法记住你是谁、之前聊过什么 |
六、在 OpenClaw 中的实际对应
| 概念 | OpenClaw 中的实际存在 | 配置文件位置 |
|---|---|---|
| 大模型 | MiniMax-M2.7-highspeed 等 | models.providers |
| 工具 | 飞书读写、文件操作、图片生成等 | 内置 + 插件 |
| 技能 | Skills 目录下的 .md 文件 | ~/.openclaw/workspace/skills/ |
| Agent | OpenClaw 本身 | 整体系统 |
七、常见疑问
答:Tool 是工具本身(刀),Skill 是使用刀的方法(切菜的技巧)。一个厨师有刀不代表会切菜,需要切菜说明书。
答:不一样。大模型只是 Agent 的"大脑"部分,Agent = 大脑 + 工具 + 技能 + 记忆。
答:可以。OpenClaw 支持配置多个模型,可以通过配置文件切换。
答:不需要。Skill 是一份 Markdown 说明文档,描述清楚"什么场景用什么工具、怎么调用"就行。
八、下一步学什么
- 1.3 OpenClaw 在 AI 系统中的定位是什么 → 理解你部署的这套系统在整个 AI 生态中的位置
- 1.4 核心概念一:Gateway(网关)是什么 → 理解 OpenClaw 的核心架构
如有疑问,欢迎在群内提问!