🦞OpenClaw 本地模型最佳方案:模型推荐 + vLLM 部署优化完整教程!
🦞OpenClaw 本地模型最佳方案:模型推荐 + vLLM 部署优化完整教程!
Qs对于 OpenClaw 来说,模型不仅需要具备良好的推理能力和语言理解能力,还需要拥有稳定的 工具调用(Tool Calling)能力。因为在自动化任务中,模型需要频繁调用各种工具完成操作,因此工具调用能力往往是选择模型时最重要的指标之一。 OpenClaw本地部署+vLLM部署优化完整教程!
对于 OpenClaw 来说,模型不仅需要具备良好的推理能力和语言理解能力,还需要拥有稳定的工具调用(Tool Calling)能力。因为在自动化任务中,模型需要频繁调用各种工具完成操作, 因此工具调用能力往往是选择模型时最重要的指标之一,目前来看,vLLM 可以说是单机部署 OpenClaw 的最佳解决方案之一。
🚀单卡本地部署:强烈推荐 vLLM
🔥 安装 WSL2
- 在 PowerShell(管理员)执行:
wsl --install安装完成后重启电脑,然后安装Ubuntu,wsl --install -d Ubuntu - 安装完成后重启电脑,然后安装Ubuntu,检查版本:wsl --version 确保输出结果是:WSL2
- 在 PowerShell(管理员)执行:
🔥 WSL安装 CUDA 驱动支持
- 先确认 Windows 已安装 NVIDIA 驱动。
nvidia-smi然后在 WSL Ubuntu 里运行:nvidia-smi - 如果出现显卡信息说明 GPU直通成功。例如:RTX 5070Ti # 根据你自己的显卡而定
- 先确认 Windows 已安装 NVIDIA 驱动。
🔥安装 Python 环境
- sudo apt update。
sudo apt upgrade -y安装 Python:sudo apt install python3-pip python3-venv -y - 创建虚拟环境:cd ~
- 进入环境:source vllm-env/bin/activate
python3 -m venv vllm-env- sudo apt update。
🔥安装 vLLM
- pip install --upgrade pip
pip install vllm安装完成后测试:python -c "import vllm; print('vLLM installed')"
- pip install --upgrade pip
🔥下载模型 Qwen3.5-AWQ-4B
- ⚠️ 显存提示
本教程演示使用的是 16GB 5070Ti显存显卡。如果你的显存更小,建议选择参数规模更小的模型:否则在加载模型时可能会出现:显存不足(Out of Memory)的问题"
- ⚠️ 显存提示
🔥启动 vLLM 服务 运行命令:
- ⚠️ 显存提示
python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen3.5-4B-AWQ \ --quantization awq_marlin \ --gpu-memory-utilization 0.9 \ --max-model-len 32768 \ --enable-auto-tool-choice \ --tool-call-parser hermes - 成功后会看到:application startup complete. (说明 API 已启动成功)
- ⚠️ 显存提示
🔥 测试模型 看下端口是否启动正常: ss -tuln | grep 8080 测试:curl http://127.0.0.1:8000/v1/models
返回模型信息:Qwen/Qwen2.5-14B-Instruct-AWQ
🔥安装 OpenClaw
- 先安装Nodejs
在 WSL 子系统里执行安装命令:安装 Python:curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install -y nodejs - 再执行安装Openclaw:
sudo npm install -g openclaw@latest- 先安装Nodejs
🔥OpenClaw 配置本地模型
- 进入配置:openclaw onboard
添加模型:Qwen:模型提供商必须选择自定义的:
- 进入配置:openclaw onboard
🔥OpenClaw 推荐参数(优化)
- 为了避免卡顿:
Context length:6000–800Temperature:0.7Max tokens:2048
- 为了避免卡顿:
🔥优化推理速度 (强烈推荐)
- vLLM启动参数建议:
vllm serve Qwen/Qwen3.5-4B-AWQ \ --port 8000 \ --gpu-memory-utilization 0.9 \ # 调整为你的 GPU 内存利用率,0.8-0.95 --tensor-parallel-size 1 \ # 单卡就 1,多卡改成 GPU 数量 --max-model-len 32768 \ # 上下文长度,根据需要调(Qwen3.5 支持很长) --dtype auto # 或 bfloat16 / float16 看你的 GPU 支持
- vLLM启动参数建议:
🔥解决长对话卡顿 (8000变成200)
- 在 OpenClaw System Prompt 加:
When the conversation becomes long, summarize previous messages into a short memory. Keep the memory under 200 tokens
- 在 OpenClaw System Prompt 加:
🔥最终性能参考 (RTX4090)
- Qwen2.5-14B-Instruct-AWQ:
token生成速度:90–130 token/s 首 token 延迟 0.4–0.8秒最大上下文 32K tokens(建议实际用 8K–16K)显存占用 10–12GB
- Qwen2.5-14B-Instruct-AWQ:
在开始之前,建议大家安装下它是一款新式、快速、高效、强大且高效的Windows 的终端程序,适用于命令行工具和命令提示符,PowerShell和 WSL 等 Shell 用户。可以方便我们切换不同的系统! Windows Terminal 清华/阿里镜像同步快,vLLM 依赖基本全覆盖。pip install vllm -i https://pypi.tuna.tsinghua.edu.cn/simple --trusted-host pypi.tuna.tsinghua.edu.cn
永久设置(以后所有 pip 都走镜像,推荐): pip config set global.index-url https://pypi.tuna.tsinghua.edu.cn/simple
pip config set global.trusted-host pypi.tuna.tsinghua.edu.cn


