OpenGL / OpenCL 编程指南 / 第 11 章：OpenCL 基础

第 11 章：OpenCL 基础

从本章开始进入 OpenCL 世界。OpenCL 是一个跨平台的并行计算框架，支持 CPU、GPU、FPGA 等多种设备。本章讲解 OpenCL 的核心架构概念。

11.1 OpenCL 架构概览

11.1.1 核心对象层次

Platform (平台)
  └── Device (设备)
        └── Context (上下文)
              ├── Command Queue (命令队列)
              ├── Program (程序)
              │     └── Kernel (内核)
              ├── Memory Object (内存对象)
              │     ├── Buffer (缓冲区)
              │     └── Image (图像)
              └── Sampler (采样器)

11.1.2 对象职责对照

对象	作用	生命周期管理
Platform	OpenCL 实现（驱动厂商）	系统管理
Device	计算设备（GPU/CPU/FPGA）	系统管理
Context	设备与资源的管理容器	`clCreateContext` / `clReleaseContext`
Command Queue	任务调度队列	`clCreateCommandQueue` / `clReleaseCommandQueue`
Program	源码编译后的程序	`clCreateProgramWithSource` / `clReleaseProgram`
Kernel	程序中的一个计算函数	`clCreateKernel` / `clReleaseKernel`
Buffer	一维内存对象	`clCreateBuffer` / `clReleaseMemObject`
Image	多维图像对象	`clCreateImage` / `clReleaseMemObject`

11.2 平台与设备查询

11.2.1 获取平台列表

// 查询所有 OpenCL 平台
cl_uint num_platforms;
cl_int err = clGetPlatformIDs(0, NULL, &num_platforms);
if (err != CL_SUCCESS || num_platforms == 0) {
    printf("No OpenCL platforms found (error: %d)\n", err);
    return -1;
}

cl_platform_id *platforms = malloc(sizeof(cl_platform_id) * num_platforms);
clGetPlatformIDs(num_platforms, platforms, NULL);

11.2.2 查询平台信息

char info[1024];
for (cl_uint i = 0; i < num_platforms; i++) {
    clGetPlatformInfo(platforms[i], CL_PLATFORM_NAME, sizeof(info), info, NULL);
    printf("Platform %u: %s\n", i, info);

    clGetPlatformInfo(platforms[i], CL_PLATFORM_VENDOR, sizeof(info), info, NULL);
    printf("  Vendor:  %s\n", info);

    clGetPlatformInfo(platforms[i], CL_PLATFORM_VERSION, sizeof(info), info, NULL);
    printf("  Version: %s\n", info);

    clGetPlatformInfo(platforms[i], CL_PLATFORM_EXTENSIONS, sizeof(info), info, NULL);
    printf("  Extensions: %s\n", info);
}

11.2.3 设备查询

cl_uint num_devices;
clGetDeviceIDs(platforms[0], CL_DEVICE_TYPE_ALL, 0, NULL, &num_devices);

cl_device_id *devices = malloc(sizeof(cl_device_id) * num_devices);
clGetDeviceIDs(platforms[0], CL_DEVICE_TYPE_ALL, num_devices, devices, NULL);

for (cl_uint i = 0; i < num_devices; i++) {
    cl_device_type type;
    char name[256];
    cl_uint compute_units;
    cl_ulong global_mem, local_mem;
    size_t max_work_group;
    size_t max_work_items[3];

    clGetDeviceInfo(devices[i], CL_DEVICE_TYPE, sizeof(type), &type, NULL);
    clGetDeviceInfo(devices[i], CL_DEVICE_NAME, sizeof(name), name, NULL);
    clGetDeviceInfo(devices[i], CL_DEVICE_MAX_COMPUTE_UNITS, sizeof(compute_units), &compute_units, NULL);
    clGetDeviceInfo(devices[i], CL_DEVICE_GLOBAL_MEM_SIZE, sizeof(global_mem), &global_mem, NULL);
    clGetDeviceInfo(devices[i], CL_DEVICE_LOCAL_MEM_SIZE, sizeof(local_mem), &local_mem, NULL);
    clGetDeviceInfo(devices[i], CL_DEVICE_MAX_WORK_GROUP_SIZE, sizeof(max_work_group), &max_work_group, NULL);
    clGetDeviceInfo(devices[i], CL_DEVICE_MAX_WORK_ITEM_SIZES, sizeof(max_work_items), max_work_items, NULL);

    printf("\nDevice %u: %s\n", i, name);
    printf("  Type:          %s\n",
           type == CL_DEVICE_TYPE_GPU ? "GPU" :
           type == CL_DEVICE_TYPE_CPU ? "CPU" :
           type == CL_DEVICE_TYPE_ACCELERATOR ? "Accelerator" : "Other");
    printf("  Compute Units: %u\n", compute_units);
    printf("  Global Memory: %lu MB\n", global_mem / (1024 * 1024));
    printf("  Local Memory:  %lu KB\n", local_mem / 1024);
    printf("  Max Work Group: %zu\n", max_work_group);
    printf("  Max Work Items: [%zu, %zu, %zu]\n",
           max_work_items[0], max_work_items[1], max_work_items[2]);
}

11.2.4 设备类型常量

常量	说明
`CL_DEVICE_TYPE_CPU`	CPU 设备
`CL_DEVICE_TYPE_GPU`	GPU 设备
`CL_DEVICE_TYPE_ACCELERATOR`	加速器（如 FPGA）
`CL_DEVICE_TYPE_DEFAULT`	默认设备
`CL_DEVICE_TYPE_ALL`	所有设备

11.3 上下文（Context）

11.3.1 创建上下文

// 方式 1：自动选择平台上的 GPU 设备
cl_context_properties properties[] = {
    CL_CONTEXT_PLATFORM, (cl_context_properties)platforms[0],
    0  // 结束标志
};

cl_int err;
cl_context context = clCreateContextFromType(
    properties,
    CL_DEVICE_TYPE_GPU,  // 只要 GPU
    NULL,                // 回调函数
    NULL,                // 回调数据
    &err
);

if (err != CL_SUCCESS) {
    printf("Failed to create context: %d\n", err);
    return -1;
}

// 方式 2：指定具体设备
cl_context context = clCreateContext(
    properties,
    1,              // 设备数量
    &devices[0],    // 设备列表
    NULL,           // 回调函数
    NULL,           // 回调数据
    &err
);

11.3.2 查询上下文信息

cl_uint ctx_num_devices;
clGetContextInfo(context, CL_CONTEXT_NUM_DEVICES, sizeof(ctx_num_devices), &ctx_num_devices, NULL);
printf("Context has %u devices\n", ctx_num_devices);

size_t dev_list_size;
clGetContextInfo(context, CL_CONTEXT_DEVICES, 0, NULL, &dev_list_size);
cl_device_id *ctx_devices = malloc(dev_list_size);
clGetContextInfo(context, CL_CONTEXT_DEVICES, dev_list_size, ctx_devices, NULL);

11.4 命令队列（Command Queue）

11.4.1 创建命令队列

// OpenCL 1.2 方式
cl_command_queue queue = clCreateCommandQueue(
    context,
    devices[0],
    CL_QUEUE_PROFILING_ENABLE,  // 启用性能分析
    &err
);

// OpenCL 2.0+ 方式
cl_queue_properties props[] = {
    CL_QUEUE_PROPERTIES, CL_QUEUE_PROFILING_ENABLE,
    0
};
cl_command_queue queue = clCreateCommandQueueWithProperties(
    context, devices[0], props, &err
);

11.4.2 命令队列的作用

命令队列是主机（CPU）与设备（GPU）之间的通信管道：

主机 (CPU)                          设备 (GPU)
┌──────────┐                      ┌──────────┐
│ 你的程序  │                      │ 计算核心  │
└────┬─────┘                      └────┬─────┘
     │                                 │
     │ clEnqueueWriteBuffer             │
     │ clEnqueueNDRangeKernel          │
     │ clEnqueueReadBuffer             │
     ▼                                 │
┌──────────────────┐                   │
│  命令队列         │ ──────────────────┘
│  [写入] [内核] [读取] │
└──────────────────┘

11.4.3 命令类型

函数	作用
`clEnqueueWriteBuffer`	主机 → 设备传输
`clEnqueueReadBuffer`	设备 → 主机传输
`clEnqueueNDRangeKernel`	执行内核
`clEnqueueCopyBuffer`	设备端缓冲区拷贝
`clEnqueueMapBuffer`	映射缓冲区到主机地址空间
`clEnqueueUnmapMemObject`	取消映射
`clEnqueueBarrier`	队列内同步屏障
`clFlush`	提交队列中的命令到设备
`clFinish`	等待队列中所有命令完成

11.5 程序对象与内核

11.5.1 OpenCL C 源码

// vector_add.cl - OpenCL C 内核源码
__kernel void vector_add(
    __global const float *a,
    __global const float *b,
    __global float *out,
    const int n)
{
    int gid = get_global_id(0);
    if (gid < n) {
        out[gid] = a[gid] + b[gid];
    }
}

11.5.2 编译程序

// 读取源码
const char *source = readFile("vector_add.cl");
size_t source_len = strlen(source);

// 创建程序对象
cl_program program = clCreateProgramWithSource(
    context, 1, &source, &source_len, &err
);

// 编译
err = clBuildProgram(program, 1, &devices[0], "-cl-fast-relaxed-math", NULL, NULL);
if (err != CL_SUCCESS) {
    // 获取编译日志
    size_t log_size;
    clGetProgramBuildInfo(program, devices[0], CL_PROGRAM_BUILD_LOG, 0, NULL, &log_size);
    char *log = malloc(log_size);
    clGetProgramBuildInfo(program, devices[0], CL_PROGRAM_BUILD_LOG, log_size, log, NULL);
    printf("Build log:\n%s\n", log);
    free(log);
    return -1;
}

// 创建内核对象
cl_kernel kernel = clCreateKernel(program, "vector_add", &err);

11.5.3 编译选项

选项	说明
`-cl-fast-relaxed-math`	快速数学（允许不精确）
`-cl-mad-enable`	允许 mad 替代 a*b+c
`-cl-std=CL2.0`	指定 OpenCL C 版本
`-D DEFINE=VALUE`	宏定义
`-I /path/to/include`	头文件搜索路径
`-cl-opt-disable`	禁用优化（调试用）

11.6 内存对象

11.6.1 创建缓冲区

const int N = 1024 * 1024;
float *host_a = malloc(N * sizeof(float));
float *host_b = malloc(N * sizeof(float));
float *host_out = malloc(N * sizeof(float));

// 填充数据
for (int i = 0; i < N; i++) {
    host_a[i] = (float)i;
    host_b[i] = (float)(i * 2);
}

// 创建设备缓冲区
cl_mem buf_a = clCreateBuffer(context, CL_MEM_READ_ONLY,  N * sizeof(float), NULL, &err);
cl_mem buf_b = clCreateBuffer(context, CL_MEM_READ_ONLY,  N * sizeof(float), NULL, &err);
cl_mem buf_out = clCreateBuffer(context, CL_MEM_WRITE_ONLY, N * sizeof(float), NULL, &err);

11.6.2 内存标志

标志	说明
`CL_MEM_READ_ONLY`	设备只读
`CL_MEM_WRITE_ONLY`	设备只写
`CL_MEM_READ_WRITE`	设备可读写
`CL_MEM_USE_HOST_PTR`	直接使用主机内存（零拷贝）
`CL_MEM_COPY_HOST_PTR`	创建时拷贝主机数据
`CL_MEM_ALLOC_HOST_PTR`	分配主机可访问内存

11.6.3 数据传输

// 写入数据到设备
clEnqueueWriteBuffer(queue, buf_a, CL_TRUE, 0, N * sizeof(float), host_a, 0, NULL, NULL);
clEnqueueWriteBuffer(queue, buf_b, CL_TRUE, 0, N * sizeof(float), host_b, 0, NULL, NULL);

// 设置内核参数
clSetKernelArg(kernel, 0, sizeof(cl_mem), &buf_a);
clSetKernelArg(kernel, 1, sizeof(cl_mem), &buf_b);
clSetKernelArg(kernel, 2, sizeof(cl_mem), &buf_out);
clSetKernelArg(kernel, 3, sizeof(int), &N);

// 执行内核
size_t global_size = N;
size_t local_size = 256;
clEnqueueNDRangeKernel(queue, kernel, 1, NULL, &global_size, &local_size, 0, NULL, NULL);

// 读回结果
clEnqueueReadBuffer(queue, buf_out, CL_TRUE, 0, N * sizeof(float), host_out, 0, NULL, NULL);

// 验证
for (int i = 0; i < 10; i++) {
    printf("out[%d] = %.1f (expected %.1f)\n", i, host_out[i], host_a[i] + host_b[i]);
}

11.7 完整示例：向量加法

将以上所有内容组合：

// vector_add.c - 完整的 OpenCL 向量加法
#define CL_TARGET_OPENCL_VERSION 120
#include <CL/cl.h>
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <math.h>

const char *kernel_source =
"__kernel void vector_add(\n"
"    __global const float *a,\n"
"    __global const float *b,\n"
"    __global float *out,\n"
"    const int n)\n"
"{\n"
"    int gid = get_global_id(0);\n"
"    if (gid < n) {\n"
"        out[gid] = a[gid] + b[gid];\n"
"    }\n"
"}\n";

int main() {
    const int N = 1024 * 1024;
    cl_int err;

    // 1. 获取平台和设备
    cl_platform_id platform;
    cl_device_id device;
    clGetPlatformIDs(1, &platform, NULL);
    clGetDeviceIDs(platform, CL_DEVICE_TYPE_GPU, 1, &device, NULL);

    // 2. 创建上下文和队列
    cl_context context = clCreateContext(NULL, 1, &device, NULL, NULL, &err);
    cl_command_queue queue = clCreateCommandQueue(context, device, 0, &err);

    // 3. 编译内核
    cl_program program = clCreateProgramWithSource(context, 1, &kernel_source, NULL, &err);
    clBuildProgram(program, 1, &device, NULL, NULL, NULL);
    cl_kernel kernel = clCreateKernel(program, "vector_add", &err);

    // 4. 分配主机内存
    float *a = malloc(N * sizeof(float));
    float *b = malloc(N * sizeof(float));
    float *out = malloc(N * sizeof(float));
    for (int i = 0; i < N; i++) { a[i] = i; b[i] = i * 2; }

    // 5. 创建设备缓冲区并传输数据
    cl_mem buf_a = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,
                                   N * sizeof(float), a, &err);
    cl_mem buf_b = clCreateBuffer(context, CL_MEM_READ_ONLY | CL_MEM_COPY_HOST_PTR,
                                   N * sizeof(float), b, &err);
    cl_mem buf_out = clCreateBuffer(context, CL_MEM_WRITE_ONLY, N * sizeof(float), NULL, &err);

    // 6. 设置参数并执行
    clSetKernelArg(kernel, 0, sizeof(cl_mem), &buf_a);
    clSetKernelArg(kernel, 1, sizeof(cl_mem), &buf_b);
    clSetKernelArg(kernel, 2, sizeof(cl_mem), &buf_out);
    clSetKernelArg(kernel, 3, sizeof(int), &N);

    size_t global_size = N;
    size_t local_size = 256;
    clEnqueueNDRangeKernel(queue, kernel, 1, NULL, &global_size, &local_size, 0, NULL, NULL);
    clFinish(queue);

    // 7. 读回结果
    clEnqueueReadBuffer(queue, buf_out, CL_TRUE, 0, N * sizeof(float), out, 0, NULL, NULL);

    // 8. 验证
    int errors = 0;
    for (int i = 0; i < N; i++) {
        if (fabs(out[i] - (a[i] + b[i])) > 1e-5) errors++;
    }
    printf("Completed with %d errors out of %d elements\n", errors, N);

    // 9. 清理
    clReleaseMemObject(buf_a);
    clReleaseMemObject(buf_b);
    clReleaseMemObject(buf_out);
    clReleaseKernel(kernel);
    clReleaseProgram(program);
    clReleaseCommandQueue(queue);
    clReleaseContext(context);
    free(a); free(b); free(out);
    return 0;
}

编译运行：

gcc vector_add.c -o vector_add -lOpenCL -lm
./vector_add
# 预期输出: Completed with 0 errors out of 1048576 elements

11.8 错误处理

OpenCL 所有函数返回 cl_int 错误码：

// 错误码宏
#define CL_CHECK(err, msg) do { \
    if ((err) != CL_SUCCESS) { \
        fprintf(stderr, "OpenCL Error (%d) at %s:%d: %s\n", err, __FILE__, __LINE__, msg); \
        exit(1); \
    } \
} while(0)

// 使用
cl_int err;
cl_mem buf = clCreateBuffer(context, CL_MEM_READ_WRITE, size, NULL, &err);
CL_CHECK(err, "clCreateBuffer failed");

常见错误码

错误码	值	说明
`CL_SUCCESS`	0	成功
`CL_DEVICE_NOT_FOUND`	-1	未找到设备
`CL_OUT_OF_RESOURCES`	-5	设备资源不足
`CL_OUT_OF_HOST_MEMORY`	-6	主机内存不足
`CL_BUILD_PROGRAM_FAILURE`	-11	程序编译失败
`CL_INVALID_KERNEL_ARGS`	-52	内核参数无效
`CL_MEM_OBJECT_ALLOCATION_FAILURE`	-4	内存对象分配失败

11.9 注意事项

⚠️ 所有 OpenCL 对象必须手动释放。clCreate* 创建的对象必须用 clRelease* 释放，否则造成资源泄漏。

⚠️ OpenCL 版本兼容性：clCreateCommandQueue 在 OpenCL 2.0 中被弃用，改用 clCreateCommandQueueWithProperties。使用宏 CL_TARGET_OPENCL_VERSION 控制头文件版本。

⚠️ 内核编译是运行时的：OpenCL 内核在首次执行时编译，编译错误只有在运行时才能捕获。务必检查 clBuildProgram 的返回值和构建日志。

⚠️ NVIDIA 的 OpenCL 版本：截至 2026 年，NVIDIA 驱动仅支持 OpenCL 1.2（部分 2.0 特性）。AMD 支持完整的 OpenCL 2.0+。

11.10 业务场景

场景 1：科学计算框架

使用 OpenCL 作为后端，在实验室的混合硬件环境（Intel CPU + NVIDIA GPU + AMD GPU）上运行同一套计算代码。

场景 2：图像处理管线

医疗影像处理应用，利用 OpenCL 的图像对象和采样器实现高效的体积渲染。

场景 3：金融定价引擎

蒙特卡洛期权定价，OpenCL 内核在 GPU 上并行模拟数百万条价格路径。

11.11 扩展阅读

资源	说明
OpenCL 规范	官方标准文档
OpenCL C 编程指南	OpenCL C 语言规范
Intel OpenCL SDK	Intel 平台工具
AMD ROCm	AMD GPU 计算平台

本章小结

OpenCL 核心对象：Platform → Device → Context → CommandQueue → Program → Kernel
Context 管理设备和内存对象的生命周期
CommandQueue 是主机与设备的通信管道，支持顺序和乱序执行
内核源码是 OpenCL C，在运行时编译
内存对象（Buffer/Image）在设备端分配，通过显式传输或映射访问
所有 OpenCL 对象必须手动释放

上一章：第 10 章：计算着色器 下一章：第 12 章：内核编程