强曰为道
与天地相似,故不违。知周乎万物,而道济天下,故不过。旁行而不流,乐天知命,故不忧.
文档目录

Ollama 本地大模型部署指南 / 02 - 安装与环境配置

第 2 章:安装与环境配置

在你的操作系统上完成 Ollama 安装,配置 GPU 加速,验证环境就绪。


2.1 安装前检查清单

在开始安装之前,请确认以下条件:

检查项最低要求推荐配置
操作系统Ubuntu 20.04 / macOS 12 / Windows 10Ubuntu 22.04+ / macOS 14+ / Windows 11
CPUx86_64 / ARM64多核处理器 (4+)
内存8 GB16 GB+
磁盘空间20 GB50 GB+(SSD 推荐)
GPU(可选)无(CPU 可运行)NVIDIA RTX 3060+ / Apple M 系列
网络可访问互联网稳定宽带(首次下载模型需要)
# 快速检查系统信息
uname -a                    # 系统版本
free -h                     # 内存大小
df -h /                     # 磁盘空间
lscpu | grep "Model name"   # CPU 型号
nvidia-smi                  # NVIDIA GPU(如已安装驱动)

2.2 Linux 安装

2.2.1 一键安装(推荐)

curl -fsSL https://ollama.com/install.sh | sh

安装脚本自动完成以下操作:

1. 检测操作系统和架构
2. 下载对应版本的 Ollama 二进制文件
3. 安装到 /usr/local/bin/ollama
4. 创建 systemd 服务文件
5. 创建 ollama 用户和用户组
6. 检测 GPU 并安装对应驱动支持
7. 启动 ollama 服务

2.2.2 安装验证

# 检查版本
ollama --version
# 输出示例: ollama version 0.6.2

# 检查服务状态
systemctl status ollama

# 验证 API 是否就绪
curl http://localhost:11434
# 输出: Ollama is running

2.2.3 手动安装

如果一键脚本不适用(如企业内网环境),可以手动安装:

# 1. 下载二进制文件
curl -L https://ollama.com/download/ollama-linux-amd64 -o /usr/local/bin/ollama

# 2. 添加执行权限
chmod +x /usr/local/bin/ollama

# 3. 创建专用用户
sudo useradd -r -s /bin/false -m -d /usr/share/ollama ollama

# 4. 创建 systemd 服务
sudo tee /etc/systemd/system/ollama.service << 'EOF'
[Unit]
Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="HOME=/usr/share/ollama"
Environment="OLLAMA_HOST=0.0.0.0:11434"

[Install]
WantedBy=default.target
EOF

# 5. 启动服务
sudo systemctl daemon-reload
sudo systemctl enable ollama
sudo systemctl start ollama

2.2.4 ARM64 架构安装

# 对于 ARM64 架构(如 AWS Graviton、树莓派 4+)
curl -L https://ollama.com/download/ollama-linux-arm64 -o /usr/local/bin/ollama
chmod +x /usr/local/bin/ollama

⚠️ 注意: ARM64 平台上部分模型可能缺少优化,推理速度会较慢。


2.3 macOS 安装

2.3.1 方式一:直接下载

  1. 访问 ollama.com/download
  2. 下载 macOS 版本(.zip 文件)
  3. 解压并拖入 Applications 文件夹
  4. 首次运行时需要在「系统偏好设置 → 安全性与隐私」中允许

2.3.2 方式二:Homebrew

brew install ollama

2.3.3 启动服务

# 前台运行(调试用)
ollama serve

# 或在后台运行
nohup ollama serve > /dev/null 2>&1 &

💡 提示: macOS 上 Ollama 以菜单栏图标形式运行,可以在菜单栏中查看状态。

2.3.4 Apple Silicon 优化

Apple Silicon(M1/M2/M3/M4)芯片原集成了 Neural Engine 和统一内存架构:

芯片统一内存推荐最大模型
M18/16 GB7B (Q4)
M1 Pro/Max16/32/64 GB13B-34B
M28/16/24 GB7B-13B (Q4)
M2 Pro/Max/Ultra16-192 GB13B-70B
M38/16/24 GB7B-13B (Q4)
M3 Pro/Max18-128 GB13B-70B
M416/24/32 GB13B-34B (Q4)
# Ollama 会自动使用 Metal 加速,无需额外配置
# 验证是否使用 Metal 加速:
ollama run qwen2.5:7b "Hello" --verbose
# 输出中应包含 GPU 相关信息

2.4 Windows 安装

2.4.1 安装步骤

  1. 下载 Windows 安装程序:ollama.com/download
  2. 运行 OllamaSetup.exe
  3. 安装完成后,Ollama 以系统服务方式自动运行

2.4.2 验证安装

打开 PowerShell 或 CMD:

# 检查版本
ollama --version

# 检查服务是否运行
curl http://localhost:11434
# 或使用 PowerShell:
Invoke-WebRequest -Uri http://localhost:11434

2.4.3 WSL2 安装方式

如果你更习惯在 WSL2 中操作:

# 在 WSL2 中使用与 Linux 相同的安装命令
curl -fsSL https://ollama.com/install.sh | sh

⚠️ 注意: WSL2 中的 GPU 支持需要安装 NVIDIA CUDA on WSL

2.4.4 Windows 环境变量配置

# 设置 Ollama 模型存储路径(默认在 C:\Users\<user>\.ollama\models)
[System.Environment]::SetEnvironmentVariable("OLLAMA_MODELS", "D:\ollama\models", "User")

# 设置 API 监听地址
[System.Environment]::SetEnvironmentVariable("OLLAMA_HOST", "0.0.0.0:11434", "User")

# 设置并行请求量
[System.Environment]::SetEnvironmentVariable("OLLAMA_NUM_PARALLEL", "4", "User")

2.5 GPU 配置

2.5.1 NVIDIA GPU(CUDA)

步骤一:安装 NVIDIA 驱动

# Ubuntu — 使用官方驱动管理工具
sudo apt update
sudo ubuntu-drivers devices          # 列出可用驱动
sudo ubuntu-drivers autoinstall      # 自动安装推荐驱动

# 或手动安装特定版本
sudo apt install nvidia-driver-545

# 重启后验证
nvidia-smi

预期输出:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 545.xx.xx    Driver Version: 545.xx.xx    CUDA Version: 12.3     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  NVIDIA GeForce RTX 3090  |   00000000:01:00.0  On |                  N/A |
| 30%   35C    P8    25W / 350W |    512MiB / 24576MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

步骤二:安装 CUDA Toolkit(可选)

💡 提示: Ollama 内置了必要的 CUDA 库,通常不需要单独安装 CUDA Toolkit。仅在编译或自定义构建时需要。

# Ubuntu — 安装 CUDA Toolkit 12.x
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install cuda-toolkit-12-3

# 配置环境变量
echo 'export PATH=/usr/local/cuda/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc
source ~/.bashrc

步骤三:验证 Ollama GPU 使用

# 运行模型并查看 GPU 利用率
ollama run qwen2.5:7b "你好"

# 在另一个终端监控 GPU
watch -n 1 nvidia-smi

2.5.2 AMD GPU(ROCm)

# 1. 安装 ROCm(以 Ubuntu 22.04 为例)
sudo apt update
sudo apt install wget gnupg2

# 添加 ROCm 仓库
wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -
echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/6.0 jammy main' | sudo tee /etc/apt/sources.list.d/rocm.list

sudo apt update
sudo apt install rocm-hip-sdk

# 2. 添加用户到 render 和 video 组
sudo usermod -aG render,video $USER

# 3. 重启后验证
rocminfo

⚠️ 注意: ROCm 支持的 GPU 列表有限,请参考 ROCm 兼容性列表。目前主要支持 RX 6000/7000 系列和 Instinct 系列。

2.5.3 Apple Silicon(Metal)

Apple Silicon 设备无需额外配置,Ollama 自动使用 Metal 加速:

# 直接运行即可
ollama run qwen2.5:7b

# 查看是否使用 GPU 加速(关注输出中的 GPU 信息)
ollama run qwen2.5:7b "测试" --verbose 2>&1 | grep -i gpu

2.6 环境变量配置

Ollama 通过环境变量进行高级配置:

环境变量默认值说明
OLLAMA_HOST127.0.0.1:11434API 监听地址
OLLAMA_MODELS~/.ollama/models模型存储路径
OLLAMA_NUM_PARALLEL1并行请求数
OLLAMA_MAX_LOADED_MODELS1最大同时加载模型数
OLLAMA_KEEP_ALIVE5m模型在内存中保持时间
OLLAMA_FLASH_ATTENTIONfalse启用 Flash Attention
OLLAMA_KV_CACHE_TYPEf16KV 缓存量化类型

配置示例

# 编辑 systemd 服务配置
sudo systemctl edit ollama

# 在 [Service] 下添加:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
Environment="OLLAMA_NUM_PARALLEL=4"
Environment="OLLAMA_MAX_LOADED_MODELS=2"
Environment="OLLAMA_FLASH_ATTENTION=true"
Environment="OLLAMA_KEEP_ALIVE=30m"

# 重新加载并重启
sudo systemctl daemon-reload
sudo systemctl restart ollama

2.7 模型存储路径自定义

# Linux — 修改 systemd 环境变量
sudo systemctl edit ollama
# 添加: Environment="OLLAMA_MODELS=/data/ollama/models"

# macOS — 使用 launchctl
launchctl setenv OLLAMA_MODELS /data/ollama/models

# Windows — 使用系统环境变量
# 设置 OLLAMA_MODELS=D:\models

💡 提示: 建议将模型存储在 SSD 上,可以显著缩短模型加载时间。


2.8 离线安装

在无网络环境下部署 Ollama:

# 在有网络的机器上:
# 1. 下载 Ollama 二进制文件
curl -L https://ollama.com/download/ollama-linux-amd64 -o ollama

# 2. 下载模型文件(在有网络的机器上先拉取)
ollama pull qwen2.5:7b

# 3. 打包模型文件
tar czf ollama-models.tar.gz ~/.ollama/models/

# 4. 将 ollama 和 ollama-models.tar.gz 传输到离线机器

# 在离线机器上:
# 1. 安装 Ollama
chmod +x ollama
sudo mv ollama /usr/local/bin/

# 2. 恢复模型文件
tar xzf ollama-models.tar.gz -C ~/

# 3. 启动服务
ollama serve &

2.9 防火墙配置

# 如需从局域网其他设备访问 Ollama API

# Ubuntu/Debian — ufw
sudo ufw allow 11434/tcp

# CentOS/RHEL — firewalld
sudo firewall-cmd --permanent --add-port=11434/tcp
sudo firewall-cmd --reload

# 验证端口监听
ss -tlnp | grep 11434

2.10 安装验证全流程

完成安装后,运行以下命令进行完整验证:

# 1. 检查版本
ollama --version

# 2. 检查 API
curl -s http://localhost:11434 | head -1
# 预期: Ollama is running

# 3. 拉取一个小模型测试
ollama pull qwen2.5:1.5b

# 4. 运行推理测试
ollama run qwen2.5:1.5b "1+1等于几?"

# 5. 测试 API
curl http://localhost:11434/api/chat -d '{
  "model": "qwen2.5:1.5b",
  "messages": [{"role": "user", "content": "你好"}],
  "stream": false
}'

# 6. 检查 GPU(如有)
nvidia-smi  # 或 rocminfo

2.11 常见安装问题

问题原因解决方案
command not found: ollamaPATH 未配置export PATH=$PATH:/usr/local/bin
ollama: permission denied文件权限问题chmod +x /usr/local/bin/ollama
CUDA not availableGPU 驱动未安装安装 NVIDIA 驱动 535+
model loading slow使用了 HDD将模型迁移至 SSD
port already in use端口被占用kill $(lsof -t -i:11434)
connection refused服务未启动sudo systemctl start ollama

2.12 本章小结

平台安装方式GPU 支持
Linuxcurl -fsSL https://ollama.com/install.sh | shCUDA / ROCm
macOS官网下载 / brew install ollamaMetal(自动)
Windows官网安装包CUDA
Docker见第 10 章CUDA / ROCm

扩展阅读

  1. NVIDIA CUDA 安装指南
  2. ROCm 安装文档
  3. Apple Metal 开发文档
  4. Ollama 常见问题

📖 下一章: 第 3 章:模型管理 →