Ollama + Open WebUI 免费吗？

完全免费。Ollama是MIT协议开源项目，Open WebUI是BSD协议。本地部署后没有任何月费，唯一成本是你的电脑电费。如果你用云服务器部署，需要付VPS租金（约$5-20/月）。

需要什么样的电脑配置？

最低配置：8GB内存，CPU推理也能跑7B模型（如Qwen2.5 7B、Llama 3.2 3B）。推荐配置：16GB+内存 + 6GB+显存的NVIDIA显卡，可以流畅运行14B级别模型。如果是Mac M系列芯片，8GB统一内存跑7B模型体验已经不错。

本地部署的模型和ChatGPT比差距大吗？

有差距但正在快速缩小。7B级别模型在中文日常对话上已接近GPT-3.5水平；14B-32B模型（如Qwen2.5 32B、DeepSeek R1 32B）在多数任务上接近GPT-4o；70B+模型在特定领域可超越。关键是本地模型响应快、无隐私顾虑、可离线使用。

Ollama + Open WebUI 部署教程：免费搭建私人ChatGPT

📌 一句话总结：用Ollama在本地运行开源大模型（Qwen、Llama、DeepSeek），再用Open WebUI套一个ChatGPT同款界面——30分钟，零成本，数据100%留在你的电脑上。iOS/Android也能通过内网访问。

【广告位 - 文章顶部】

第一部分：为什么选 Ollama + Open WebUI？

市面上本地大模型方案很多，但这对组合在2026年几乎成了事实标准：

方案	优点	缺点
Ollama + Open WebUI ⭐	一键部署、模型库丰富、界面漂亮、支持多用户、插件系统	需要一定动手能力
LM Studio	图形化界面、Windows/Mac友好	不支持Web访问、不能多人用
GPT4All	超简单、CPU也能跑	模型选择少、功能简陋
text-generation-webui	功能最全、插件最多	安装复杂、容易报错
vLLM / LocalAI	生产级性能、API兼容OpenAI	面向开发者、配置门槛高

总结：Ollama负责后端（运行模型），Open WebUI负责前端（聊天界面）。一个装模型，一个管界面——分工明确，都很好用。

第二部分：环境准备

角色	最低配置	推荐配置
CPU推理（7B模型）	4核CPU + 8GB内存	8核+ + 16GB内存
GPU推理（7B-14B模型）	NVIDIA 4GB显存 / Apple M1 8GB	NVIDIA 8GB+ / Apple M2 Pro+
跑70B大模型	NVIDIA 24GB显存	双卡或多节点

2026年推荐模型选择：

日常对话/写作：qwen2.5:14b 或 llama3.2:latest（中英文俱佳）
编程辅助：deepseek-coder-v2:16b 或 qwen2.5-coder:14b
深度推理：deepseek-r1:32b 或 qwen2.5:32b（需要好显卡）
轻量备用：qwen2.5:7b 或 llama3.2:3b（老旧电脑也能跑）

第三步：安装 Ollama

Windows

# 1. 去 ollama.com 下载 Windows 安装包（.exe）
# 2. 双击安装，一路 Next
# 3. 安装完后打开 PowerShell 验证：
ollama --version
# 输出：ollama version is 0.5.x

macOS

# 推荐用 Homebrew：
brew install ollama
# 或者去官网下载 .dmg 直接拖进 Applications

Linux (Ubuntu/Debian)

# 一条命令安装：
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务：
sudo systemctl enable ollama
sudo systemctl start ollama

# 验证：
ollama --version

装完Ollama之后先拉一个模型试试：

# 下载 Qwen2.5 14B（推荐，中文质量优秀）：
ollama pull qwen2.5:14b

# 或下载更轻量的7B版本（对配置要求更低）：
ollama pull qwen2.5:7b

# 测试一下能跑吗：
ollama run qwen2.5:7b "你好，用中文介绍一下你自己"

看到模型正常回复，就说明Ollama已经装好了。首次下载模型需要时间（7B约4GB，14B约8GB），耐心等待。

【广告位 - 文章中段】

第四步：安装 Open WebUI

Open WebUI 提供了ChatGPT风格的全功能聊天界面，支持对话历史、Markdown渲染、代码高亮、文件上传、多模型切换、多用户管理等。

方法一：Docker（推荐，跨平台）

# 确保已安装 Docker Desktop 或 Docker Engine
# 一条命令启动：
docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# 打开浏览器访问：http://localhost:3000

方法二：pip 安装（不需要Docker）

# 需要 Python 3.11+
pip install open-webui

# 启动：
open-webui serve

# 访问 http://localhost:8080

避坑提示：

Docker方式需要Ollama和Open WebUI在同一台机器上，或通过 OLLAMA_BASE_URL 环境变量指定Ollama地址
Windows上Docker可能需要WSL2，如果不想折腾Docker直接用pip方式
首次启动会创建管理员账号，这是你一个人的ChatGPT，想几个人用就加几个账号

第五步：配置和使用

基本设置

打开 Open WebUI 界面 → 左下角点击你的头像 → 管理员面板 → 设置
确认 Ollama 连接地址（默认 http://localhost:11434）
在「模型」标签页可以看到已下载的模型，也可以在这里直接搜索和拉取新模型
回到聊天界面，顶部下拉菜单选择你想用的模型，开始聊天

进阶：GPU加速（NVIDIA显卡用户必看）

Ollama默认会自动检测NVIDIA显卡并使用CUDA加速。如果没检测到：

# 检查Ollama是否在用GPU：
ollama ps
# 如果MODEL列后面有"100% GPU"，就说明已经在用显卡了

# 如果没检测到GPU，确认：
# 1. NVIDIA驱动已安装：nvidia-smi
# 2. CUDA toolkit已安装
# 3. 重启Ollama服务后再试

手机也能用：内网穿透

部署好后，同一WiFi下的手机/iPad直接访问 http://你的电脑IP:3000 就能用。如果想在外网访问，推荐用Tailscale（免费）：

# 在服务器上装 Tailscale：
curl -fsSL https://tailscale.com/install.sh | sh
tailscale up

# 然后手机上装Tailscale App，加入同一网络
# 就能通过 Tailscale 分配的IP访问了

第六步：常见问题排错

Q: Docker启动后连不上Ollama

在 Open WebUI 的 Docker 启动命令里加 -e OLLAMA_BASE_URL=http://host.docker.internal:11434。如果Ollama在其他机器上，改成那台机器的IP。

Q: 模型回复很慢

7B模型 + CPU推理 = 约2-5 token/秒（可以接受）
14B模型 + CPU推理 = 约1-2 token/秒（偏慢）
同模型 + GPU推理 = 10-50 token/秒（流畅）
解决：换更小的模型（7B→3B），或加显卡，或降低 num_ctx 上下文长度

Q: 中文回答乱码或英文夹杂

# 在 Open WebUI 的设置里加系统提示词：
# 管理员面板 → 设置 → 默认提示词 → 填入：
"你是一个中文AI助手，请始终使用中文回答，除非用户明确要求使用其他语言。"

Q: 磁盘空间不够了

# 查看已下载的模型：
ollama list

# 删除不用的模型：
ollama rm qwen2.5:7b

# 模型默认存在（Windows）：
# C:\Users\你的用户名\.ollama\models
# 可以用 mklink 移到其他盘

【广告位 - 文章底部】

总结：这套方案的真正价值

花30分钟搭好 Ollama + Open WebUI，你得到的是：

永久免费的AI助手（不需要每月$20的ChatGPT订阅）
数据隐私（所有对话和文件都留在本地，不经过任何第三方服务器）
离线可用（没网也能用，出差/飞机上照样有AI帮忙）
全家共享（开几个账号，家人同事都能用）
模型自由（想用Qwen用Qwen，想用Llama用Llama，随时切换）

如果说ChatGPT是租房子住，那Ollama + Open WebUI就是买了自己的房子——前期花点精力装修，后面想怎么住怎么住。

下一步可以怎么玩？

接入 Dify（可视化的AI应用搭建平台，可以做知识库问答机器人）
接入 AnythingLLM（文档问答，把PDF/Word喂给模型）
接入 Continue.dev（VS Code里的AI编程插件，直连Ollama）
用 LangChain + Ollama 构建自己的AI Agent

后续我们会出这些工具的详细教程，记得收藏本站。

Ollama + Open WebUI 部署教程：免费搭建你的私人ChatGPT（2026最新）