强曰为道
与天地相似,故不违。知周乎万物,而道济天下,故不过。旁行而不流,乐天知命,故不忧.
文档目录

Ollama 本地大模型部署指南

Ollama 本地大模型部署指南

在本地机器上轻松运行大语言模型(LLM),无需依赖云服务。

本教程共 12 章,涵盖从入门安装到生产部署的完整知识体系,适合希望在本地环境运行和管理大语言模型的开发者、运维工程师及 AI 爱好者。


目录总览

章节标题核心内容
01Ollama 概述与对比特性介绍、支持模型、与 vLLM/LM Studio 对比
02安装与环境配置Linux/macOS/Windows 安装、GPU 驱动配置
03模型管理pull/run/list、Modelfile、模型导入导出
04REST API 详解Chat/Generate/Embeddings、流式响应
05模型参数调优Temperature/Top-P/上下文长度/量化
06自定义模型Modelfile 编写、系统提示、模板、模型合并
07GPU 加速配置CUDA/ROCm/Metal/多 GPU 配置
08框架集成LangChain/LlamaIndex/Open WebUI
09RAG 实现文档处理、向量存储、检索增强生成
10Docker 部署Docker/Compose/NVIDIA 运行时
11故障排查常见错误、性能问题、内存不足
12生产最佳实践性能优化、安全管理、成本评估

适用读者

角色适合从何处开始
AI 初学者第 1-3 章(理解概念 → 安装 → 跑通第一个模型)
应用开发者第 4、8、9 章(API → 框架集成 → RAG)
运维/SRE 工程师第 7、10、11、12 章(GPU → Docker → 排障 → 生产部署)
全栈技术负责人通读全部章节

前置要求

  • 操作系统: Linux (Ubuntu 22.04+)、macOS 12+、Windows 10+
  • 内存: 至少 8 GB RAM(推荐 16 GB+)
  • 存储: 至少 20 GB 可用磁盘空间(视模型大小而定)
  • GPU(可选): NVIDIA GPU (CUDA 11.7+)、AMD GPU (ROCm 5.7+)、Apple Silicon

技术栈概览

┌─────────────────────────────────────────────────┐
│                应用层 (Application)               │
│    LangChain · LlamaIndex · Open WebUI · 自研应用   │
├─────────────────────────────────────────────────┤
│                API 层 (REST API)                  │
│     /api/chat · /api/generate · /api/embeddings   │
├─────────────────────────────────────────────────┤
│              Ollama 运行时 (Runtime)               │
│      模型调度 · 量化引擎 · 上下文管理 · GPU 调度      │
├─────────────────────────────────────────────────┤
│              模型层 (Model Layer)                  │
│    Llama 3 · Qwen · Gemma · Mistral · DeepSeek    │
├─────────────────────────────────────────────────┤
│              硬件层 (Hardware)                     │
│       CPU · NVIDIA GPU · AMD GPU · Apple Silicon    │
└─────────────────────────────────────────────────┘

快速开始

如果你想直接上手,以下三步即可在本地跑通一个模型:

# 1. 安装 Ollama(Linux/macOS)
curl -fsSL https://ollama.com/install.sh | sh

# 2. 拉取模型
ollama pull qwen2.5:7b

# 3. 运行对话
ollama run qwen2.5:7b

💡 提示: 详细安装步骤请参考 第 2 章:安装与环境配置


版本说明

组件版本说明
Ollama≥ 0.6.x本教程基于 0.6+ 编写,API 向下兼容 0.3+
Go1.22+Ollama 运行时依赖
CUDA11.7+NVIDIA GPU 支持
ROCm5.7+AMD GPU 支持

扩展阅读


📖 开始阅读第一章: Ollama 概述与对比 →