Blackwell 上的矩阵乘法

本文是系列文章的第一部分，介绍 NVIDIA Blackwell 架构上矩阵乘法的实现与优化。文章深入探讨了 Blackwell 的计算能力、内存层次结构以及如何利用这些特性高效执行矩阵乘法运算，为后续更详细的技术讨论奠定基础。

背景速读

- NVIDIA 的 Blackwell（B100/B200）是其最新一代 GPU 架构，接替 2022 年的 Hopper（H100）。Blackwell 在一个封装内整合了两个 die（晶粒），并引入了第二代 Transformer Engine，专门针对大语言模型（LLM）的矩阵乘法做优化。 - 矩阵乘法是深度学习计算的核心瓶颈——模型训练和推理的大部分时间都花在了矩阵乘法上。优化它在 GPU 上的执行效率直接决定了训练速度和推理成本。 - 这篇文章是系列的第一篇，介绍 Blackwell 上矩阵乘法的基本概念、数据格式（FP4/FP6/FP8 等低精度格式）以及如何通过新的 Tensor Core 指令来利用这些硬件特性。后续文章会深入底层实现细节。 - 对读者来说，关键是理解：Blackwell 的改进并非简单的"更快"，而是通过降低精度、增大张量核心的计算密度，来在相同功耗下大幅提升大模型的吞吐量。这也是为何云厂商和 AI 公司争相采购 Blackwell 的原因。