跳到主要内容

图形处理器 (GPU)

图形处理器（Graphics Processing Unit, GPU），俗称显卡，最初是专门为加速图像渲染而设计的。但由于其极强的并行计算能力，现代 GPU 已经成为人工智能、深度学习和高性能计算领域不可或缺的核心硬件。

1. 显卡分类

核芯显卡 (Integrated Graphics)：集成在 CPU 内部，与 CPU 共享系统内存。适合日常办公、影音娱乐和轻度游戏，功耗低。
独立显卡 (Discrete Graphics)：拥有独立的芯片和显存，安装在主板的 PCIe 插槽上。性能强劲，适合大型 3D 游戏、视频剪辑和 AI 运算。主要厂商为 NVIDIA 和 AMD。

2. 核心指标：流处理器与频率

流处理器 (CUDA Cores / Stream Processors)：GPU 内部的微小计算核心。与 CPU 的几个/几十个强大核心不同，GPU 拥有数以千计的流处理器，擅长同时处理大量简单的重复任务（并行计算）。流处理器数量越多，通常图形渲染和计算能力越强。
核心频率 (Core Clock)：GPU 核心的工作频率，影响处理速度。与 CPU 类似，也有基础频率和加速频率之分。

3. 显存 (VRAM)

显存（Video RAM）是 GPU 专属的内存，用于存储图形数据（如纹理、帧缓冲区、AI 模型权重）。

显存容量：容量越大，能同时处理的高分辨率贴图和复杂的 3D 场景就越多。对于 AI 大模型训练和推理，显存容量是决定能否加载模型的关键瓶颈。
显存位宽与带宽：位宽（如 128-bit, 256-bit）类似于马路的宽度，带宽则是数据传输的总速度。位宽和显存频率共同决定了显存带宽。

4. AI 算力与 CUDA 简介

CUDA (Compute Unified Device Architecture)：由 NVIDIA 推出的一种并行计算平台和编程模型。它允许开发者利用 NVIDIA GPU 的计算能力进行非图形相关的复杂计算。由于 CUDA 生态的完善，NVIDIA 在深度学习领域占据绝对统治地位。
Tensor Cores (张量核心)：现代 NVIDIA 显卡（RTX 系列）中专为深度学习矩阵运算加速而设计的硬件单元，极大地提升了 AI 推理和训练的算力。
AI 算力评估：通常使用 TOPS (Tera Operations Per Second，每秒万亿次操作) 或 TFLOPS (每秒万亿次浮点运算) 来衡量 GPU 的人工智能和浮点计算性能。

了解 GPU 的这些特性，可以帮助我们在装机或选择云计算服务器时，明确是为了游戏帧数、视频渲染速度，还是为了跑通庞大的 AI 模型。

1. 显卡分类
2. 核心指标：流处理器与频率
3. 显存 (VRAM)
4. AI 算力与 CUDA 简介