Ollama 本地大模型部署指南

在本地机器上轻松运行大语言模型（LLM），无需依赖云服务。

本教程共 12 章，涵盖从入门安装到生产部署的完整知识体系，适合希望在本地环境运行和管理大语言模型的开发者、运维工程师及 AI 爱好者。

目录总览

章节	标题	核心内容
01	Ollama 概述与对比	特性介绍、支持模型、与 vLLM/LM Studio 对比
02	安装与环境配置	Linux/macOS/Windows 安装、GPU 驱动配置
03	模型管理	pull/run/list、Modelfile、模型导入导出
04	REST API 详解	Chat/Generate/Embeddings、流式响应
05	模型参数调优	Temperature/Top-P/上下文长度/量化
06	自定义模型	Modelfile 编写、系统提示、模板、模型合并
07	GPU 加速配置	CUDA/ROCm/Metal/多 GPU 配置
08	框架集成	LangChain/LlamaIndex/Open WebUI
09	RAG 实现	文档处理、向量存储、检索增强生成
10	Docker 部署	Docker/Compose/NVIDIA 运行时
11	故障排查	常见错误、性能问题、内存不足
12	生产最佳实践	性能优化、安全管理、成本评估

适用读者

角色	适合从何处开始
AI 初学者	第 1-3 章（理解概念 → 安装 → 跑通第一个模型）
应用开发者	第 4、8、9 章（API → 框架集成 → RAG）
运维/SRE 工程师	第 7、10、11、12 章（GPU → Docker → 排障 → 生产部署）
全栈技术负责人	通读全部章节

前置要求

操作系统: Linux (Ubuntu 22.04+)、macOS 12+、Windows 10+
内存: 至少 8 GB RAM（推荐 16 GB+）
存储: 至少 20 GB 可用磁盘空间（视模型大小而定）
GPU（可选）: NVIDIA GPU (CUDA 11.7+)、AMD GPU (ROCm 5.7+)、Apple Silicon

技术栈概览

┌─────────────────────────────────────────────────┐
│                应用层 (Application)               │
│    LangChain · LlamaIndex · Open WebUI · 自研应用   │
├─────────────────────────────────────────────────┤
│                API 层 (REST API)                  │
│     /api/chat · /api/generate · /api/embeddings   │
├─────────────────────────────────────────────────┤
│              Ollama 运行时 (Runtime)               │
│      模型调度 · 量化引擎 · 上下文管理 · GPU 调度      │
├─────────────────────────────────────────────────┤
│              模型层 (Model Layer)                  │
│    Llama 3 · Qwen · Gemma · Mistral · DeepSeek    │
├─────────────────────────────────────────────────┤
│              硬件层 (Hardware)                     │
│       CPU · NVIDIA GPU · AMD GPU · Apple Silicon    │
└─────────────────────────────────────────────────┘

快速开始

如果你想直接上手，以下三步即可在本地跑通一个模型：

# 1. 安装 Ollama（Linux/macOS）
curl -fsSL https://ollama.com/install.sh | sh

# 2. 拉取模型
ollama pull qwen2.5:7b

# 3. 运行对话
ollama run qwen2.5:7b

💡 提示: 详细安装步骤请参考第 2 章：安装与环境配置。

版本说明

组件	版本	说明
Ollama	≥ 0.6.x	本教程基于 0.6+ 编写，API 向下兼容 0.3+
Go	1.22+	Ollama 运行时依赖
CUDA	11.7+	NVIDIA GPU 支持
ROCm	5.7+	AMD GPU 支持

扩展阅读

📖 开始阅读第一章: Ollama 概述与对比 →