📌 一句话总结:用Ollama在本地运行开源大模型(Qwen、Llama、DeepSeek),再用Open WebUI套一个ChatGPT同款界面——30分钟,零成本,数据100%留在你的电脑上。iOS/Android也能通过内网访问。
【广告位 - 文章顶部】
第一部分:为什么选 Ollama + Open WebUI?
市面上本地大模型方案很多,但这对组合在2026年几乎成了事实标准:
| 方案 | 优点 | 缺点 |
|---|---|---|
| Ollama + Open WebUI ⭐ | 一键部署、模型库丰富、界面漂亮、支持多用户、插件系统 | 需要一定动手能力 |
| LM Studio | 图形化界面、Windows/Mac友好 | 不支持Web访问、不能多人用 |
| GPT4All | 超简单、CPU也能跑 | 模型选择少、功能简陋 |
| text-generation-webui | 功能最全、插件最多 | 安装复杂、容易报错 |
| vLLM / LocalAI | 生产级性能、API兼容OpenAI | 面向开发者、配置门槛高 |
总结:Ollama负责后端(运行模型),Open WebUI负责前端(聊天界面)。一个装模型,一个管界面——分工明确,都很好用。
第二部分:环境准备
| 角色 | 最低配置 | 推荐配置 |
|---|---|---|
| CPU推理(7B模型) | 4核CPU + 8GB内存 | 8核+ + 16GB内存 |
| GPU推理(7B-14B模型) | NVIDIA 4GB显存 / Apple M1 8GB | NVIDIA 8GB+ / Apple M2 Pro+ |
| 跑70B大模型 | NVIDIA 24GB显存 | 双卡或多节点 |
2026年推荐模型选择:
- 日常对话/写作:qwen2.5:14b 或 llama3.2:latest(中英文俱佳)
- 编程辅助:deepseek-coder-v2:16b 或 qwen2.5-coder:14b
- 深度推理:deepseek-r1:32b 或 qwen2.5:32b(需要好显卡)
- 轻量备用:qwen2.5:7b 或 llama3.2:3b(老旧电脑也能跑)
第三步:安装 Ollama
Windows
# 1. 去 ollama.com 下载 Windows 安装包(.exe)
# 2. 双击安装,一路 Next
# 3. 安装完后打开 PowerShell 验证:
ollama --version
# 输出:ollama version is 0.5.xmacOS
# 推荐用 Homebrew:
brew install ollama
# 或者去官网下载 .dmg 直接拖进 ApplicationsLinux (Ubuntu/Debian)
# 一条命令安装:
curl -fsSL https://ollama.com/install.sh | sh
# 启动服务:
sudo systemctl enable ollama
sudo systemctl start ollama
# 验证:
ollama --version装完Ollama之后先拉一个模型试试:
# 下载 Qwen2.5 14B(推荐,中文质量优秀):
ollama pull qwen2.5:14b
# 或下载更轻量的7B版本(对配置要求更低):
ollama pull qwen2.5:7b
# 测试一下能跑吗:
ollama run qwen2.5:7b "你好,用中文介绍一下你自己"看到模型正常回复,就说明Ollama已经装好了。首次下载模型需要时间(7B约4GB,14B约8GB),耐心等待。
【广告位 - 文章中段】
第四步:安装 Open WebUI
Open WebUI 提供了ChatGPT风格的全功能聊天界面,支持对话历史、Markdown渲染、代码高亮、文件上传、多模型切换、多用户管理等。
方法一:Docker(推荐,跨平台)
# 确保已安装 Docker Desktop 或 Docker Engine
# 一条命令启动:
docker run -d \
-p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
# 打开浏览器访问:http://localhost:3000方法二:pip 安装(不需要Docker)
# 需要 Python 3.11+
pip install open-webui
# 启动:
open-webui serve
# 访问 http://localhost:8080避坑提示:
- Docker方式需要Ollama和Open WebUI在同一台机器上,或通过
OLLAMA_BASE_URL环境变量指定Ollama地址 - Windows上Docker可能需要WSL2,如果不想折腾Docker直接用pip方式
- 首次启动会创建管理员账号,这是你一个人的ChatGPT,想几个人用就加几个账号
第五步:配置和使用
基本设置
- 打开 Open WebUI 界面 → 左下角点击你的头像 → 管理员面板 → 设置
- 确认 Ollama 连接地址(默认
http://localhost:11434) - 在「模型」标签页可以看到已下载的模型,也可以在这里直接搜索和拉取新模型
- 回到聊天界面,顶部下拉菜单选择你想用的模型,开始聊天
进阶:GPU加速(NVIDIA显卡用户必看)
Ollama默认会自动检测NVIDIA显卡并使用CUDA加速。如果没检测到:
# 检查Ollama是否在用GPU:
ollama ps
# 如果MODEL列后面有"100% GPU",就说明已经在用显卡了
# 如果没检测到GPU,确认:
# 1. NVIDIA驱动已安装:nvidia-smi
# 2. CUDA toolkit已安装
# 3. 重启Ollama服务后再试手机也能用:内网穿透
部署好后,同一WiFi下的手机/iPad直接访问 http://你的电脑IP:3000 就能用。如果想在外网访问,推荐用Tailscale(免费):
# 在服务器上装 Tailscale:
curl -fsSL https://tailscale.com/install.sh | sh
tailscale up
# 然后手机上装Tailscale App,加入同一网络
# 就能通过 Tailscale 分配的IP访问了第六步:常见问题排错
Q: Docker启动后连不上Ollama
在 Open WebUI 的 Docker 启动命令里加 -e OLLAMA_BASE_URL=http://host.docker.internal:11434。如果Ollama在其他机器上,改成那台机器的IP。
Q: 模型回复很慢
- 7B模型 + CPU推理 = 约2-5 token/秒(可以接受)
- 14B模型 + CPU推理 = 约1-2 token/秒(偏慢)
- 同模型 + GPU推理 = 10-50 token/秒(流畅)
- 解决:换更小的模型(7B→3B),或加显卡,或降低
num_ctx上下文长度
Q: 中文回答乱码或英文夹杂
# 在 Open WebUI 的设置里加系统提示词:
# 管理员面板 → 设置 → 默认提示词 → 填入:
"你是一个中文AI助手,请始终使用中文回答,除非用户明确要求使用其他语言。"Q: 磁盘空间不够了
# 查看已下载的模型:
ollama list
# 删除不用的模型:
ollama rm qwen2.5:7b
# 模型默认存在(Windows):
# C:\Users\你的用户名\.ollama\models
# 可以用 mklink 移到其他盘【广告位 - 文章底部】
总结:这套方案的真正价值
花30分钟搭好 Ollama + Open WebUI,你得到的是:
- 永久免费的AI助手(不需要每月$20的ChatGPT订阅)
- 数据隐私(所有对话和文件都留在本地,不经过任何第三方服务器)
- 离线可用(没网也能用,出差/飞机上照样有AI帮忙)
- 全家共享(开几个账号,家人同事都能用)
- 模型自由(想用Qwen用Qwen,想用Llama用Llama,随时切换)
如果说ChatGPT是租房子住,那Ollama + Open WebUI就是买了自己的房子——前期花点精力装修,后面想怎么住怎么住。
下一步可以怎么玩?
- 接入 Dify(可视化的AI应用搭建平台,可以做知识库问答机器人)
- 接入 AnythingLLM(文档问答,把PDF/Word喂给模型)
- 接入 Continue.dev(VS Code里的AI编程插件,直连Ollama)
- 用 LangChain + Ollama 构建自己的AI Agent
后续我们会出这些工具的详细教程,记得收藏本站。