Ollama + Open WebUI 部署教程:免费搭建你的私人ChatGPT(2026最新)

📌 一句话总结:用Ollama在本地运行开源大模型(Qwen、Llama、DeepSeek),再用Open WebUI套一个ChatGPT同款界面——30分钟,零成本,数据100%留在你的电脑上。iOS/Android也能通过内网访问。
【广告位 - 文章顶部】

第一部分:为什么选 Ollama + Open WebUI?

市面上本地大模型方案很多,但这对组合在2026年几乎成了事实标准:

方案优点缺点
Ollama + Open WebUI ⭐一键部署、模型库丰富、界面漂亮、支持多用户、插件系统需要一定动手能力
LM Studio图形化界面、Windows/Mac友好不支持Web访问、不能多人用
GPT4All超简单、CPU也能跑模型选择少、功能简陋
text-generation-webui功能最全、插件最多安装复杂、容易报错
vLLM / LocalAI生产级性能、API兼容OpenAI面向开发者、配置门槛高

总结:Ollama负责后端(运行模型),Open WebUI负责前端(聊天界面)。一个装模型,一个管界面——分工明确,都很好用。

第二部分:环境准备

角色最低配置推荐配置
CPU推理(7B模型)4核CPU + 8GB内存8核+ + 16GB内存
GPU推理(7B-14B模型)NVIDIA 4GB显存 / Apple M1 8GBNVIDIA 8GB+ / Apple M2 Pro+
跑70B大模型NVIDIA 24GB显存双卡或多节点

2026年推荐模型选择:

  • 日常对话/写作:qwen2.5:14b 或 llama3.2:latest(中英文俱佳)
  • 编程辅助:deepseek-coder-v2:16b 或 qwen2.5-coder:14b
  • 深度推理:deepseek-r1:32b 或 qwen2.5:32b(需要好显卡)
  • 轻量备用:qwen2.5:7b 或 llama3.2:3b(老旧电脑也能跑)

第三步:安装 Ollama

Windows

# 1. 去 ollama.com 下载 Windows 安装包(.exe)
# 2. 双击安装,一路 Next
# 3. 安装完后打开 PowerShell 验证:
ollama --version
# 输出:ollama version is 0.5.x

macOS

# 推荐用 Homebrew:
brew install ollama
# 或者去官网下载 .dmg 直接拖进 Applications

Linux (Ubuntu/Debian)

# 一条命令安装:
curl -fsSL https://ollama.com/install.sh | sh

# 启动服务:
sudo systemctl enable ollama
sudo systemctl start ollama

# 验证:
ollama --version

装完Ollama之后先拉一个模型试试:

# 下载 Qwen2.5 14B(推荐,中文质量优秀):
ollama pull qwen2.5:14b

# 或下载更轻量的7B版本(对配置要求更低):
ollama pull qwen2.5:7b

# 测试一下能跑吗:
ollama run qwen2.5:7b "你好,用中文介绍一下你自己"

看到模型正常回复,就说明Ollama已经装好了。首次下载模型需要时间(7B约4GB,14B约8GB),耐心等待。

【广告位 - 文章中段】

第四步:安装 Open WebUI

Open WebUI 提供了ChatGPT风格的全功能聊天界面,支持对话历史、Markdown渲染、代码高亮、文件上传、多模型切换、多用户管理等。

方法一:Docker(推荐,跨平台)

# 确保已安装 Docker Desktop 或 Docker Engine
# 一条命令启动:
docker run -d \
  -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

# 打开浏览器访问:http://localhost:3000

方法二:pip 安装(不需要Docker)

# 需要 Python 3.11+
pip install open-webui

# 启动:
open-webui serve

# 访问 http://localhost:8080

避坑提示:

  • Docker方式需要Ollama和Open WebUI在同一台机器上,或通过 OLLAMA_BASE_URL 环境变量指定Ollama地址
  • Windows上Docker可能需要WSL2,如果不想折腾Docker直接用pip方式
  • 首次启动会创建管理员账号,这是你一个人的ChatGPT,想几个人用就加几个账号

第五步:配置和使用

基本设置

  1. 打开 Open WebUI 界面 → 左下角点击你的头像 → 管理员面板 → 设置
  2. 确认 Ollama 连接地址(默认 http://localhost:11434
  3. 在「模型」标签页可以看到已下载的模型,也可以在这里直接搜索和拉取新模型
  4. 回到聊天界面,顶部下拉菜单选择你想用的模型,开始聊天

进阶:GPU加速(NVIDIA显卡用户必看)

Ollama默认会自动检测NVIDIA显卡并使用CUDA加速。如果没检测到:

# 检查Ollama是否在用GPU:
ollama ps
# 如果MODEL列后面有"100% GPU",就说明已经在用显卡了

# 如果没检测到GPU,确认:
# 1. NVIDIA驱动已安装:nvidia-smi
# 2. CUDA toolkit已安装
# 3. 重启Ollama服务后再试

手机也能用:内网穿透

部署好后,同一WiFi下的手机/iPad直接访问 http://你的电脑IP:3000 就能用。如果想在外网访问,推荐用Tailscale(免费):

# 在服务器上装 Tailscale:
curl -fsSL https://tailscale.com/install.sh | sh
tailscale up

# 然后手机上装Tailscale App,加入同一网络
# 就能通过 Tailscale 分配的IP访问了

第六步:常见问题排错

Q: Docker启动后连不上Ollama

在 Open WebUI 的 Docker 启动命令里加 -e OLLAMA_BASE_URL=http://host.docker.internal:11434。如果Ollama在其他机器上,改成那台机器的IP。

Q: 模型回复很慢

  • 7B模型 + CPU推理 = 约2-5 token/秒(可以接受)
  • 14B模型 + CPU推理 = 约1-2 token/秒(偏慢)
  • 同模型 + GPU推理 = 10-50 token/秒(流畅)
  • 解决:换更小的模型(7B→3B),或加显卡,或降低 num_ctx 上下文长度

Q: 中文回答乱码或英文夹杂

# 在 Open WebUI 的设置里加系统提示词:
# 管理员面板 → 设置 → 默认提示词 → 填入:
"你是一个中文AI助手,请始终使用中文回答,除非用户明确要求使用其他语言。"

Q: 磁盘空间不够了

# 查看已下载的模型:
ollama list

# 删除不用的模型:
ollama rm qwen2.5:7b

# 模型默认存在(Windows):
# C:\Users\你的用户名\.ollama\models
# 可以用 mklink 移到其他盘
【广告位 - 文章底部】

总结:这套方案的真正价值

花30分钟搭好 Ollama + Open WebUI,你得到的是:

  • 永久免费的AI助手(不需要每月$20的ChatGPT订阅)
  • 数据隐私(所有对话和文件都留在本地,不经过任何第三方服务器)
  • 离线可用(没网也能用,出差/飞机上照样有AI帮忙)
  • 全家共享(开几个账号,家人同事都能用)
  • 模型自由(想用Qwen用Qwen,想用Llama用Llama,随时切换)

如果说ChatGPT是租房子住,那Ollama + Open WebUI就是买了自己的房子——前期花点精力装修,后面想怎么住怎么住。

下一步可以怎么玩?

  • 接入 Dify(可视化的AI应用搭建平台,可以做知识库问答机器人)
  • 接入 AnythingLLM(文档问答,把PDF/Word喂给模型)
  • 接入 Continue.dev(VS Code里的AI编程插件,直连Ollama)
  • LangChain + Ollama 构建自己的AI Agent

后续我们会出这些工具的详细教程,记得收藏本站。