Hace unas semanas se hablaba de que la GPU NVIDIA Hopper GH100 flagship, tendría tecnología de 5 nm con un tamaño para el chip de 900 mm2. Será la GPU más grande jamás fabricada. En los foros de Chiphell, además, se habla de nada más y nada menos que 140.000 millones de transistores. Como referencia, baste decir que las GPUs de las Instinct Mi200 de AMD o Ampere GA100 de las NVIDIA A100 tienen 58.200 millones y 54.200 millones de transistores respectivamente.

Estamos ante más de 2,5x más transistores en la GH100 Hopper. Tenemos en la NVIDIA Ampere A100 una densidad de 65,6 millones de transistores por mm² y en las GPUs Aldebaran de AMD tenemos 73,6 millones por mm². La densidad de la GH100 sería de 150 millones por mm². Más del doble de incremento.
Estas cifras serían para el diseño monolítico de la GH100. Las GPUs MCM irán por otros derroteros en forma de las GH102. Hopper tendría hasta 288 SMs. Si no hay cambios en la configuración de los cores, tendríamos 18.432 cores, que son 2,25x más que en la GPU GA100. Hopper podría tener mejores propiedades de cálculo FP64, FP16 y cores Tensor. Lo más probable es que las GH100 vengan con 134 SMs activadas de las 144 SMs posibles.
NVIDIA podría traer, además, un as en la manga en modo de las implementaciones de Hopper basadas en COPA. Parece que NVIDIA podría integrar elementos de cálculo específicos para ciertas áreas de aplicación como HPC o Deep Learning (DL). Estas GPUs- COPA dependen del diseño MCM multi chip. El modelo DL tendría una caché enorme, por ejemplo, con una LLC (Last Level Cache) de hasta 960 / 1.920 MB más hasta 233 GB de memoria HBMe con ancha de banda de hasta 6,3 TB/s.
NVIDIA Hopper GH100 'Preliminary Specs':
NVIDIA Tesla Graphics Card | Tesla K40 (PCI-Express) | Tesla M40 (PCI-Express) | Tesla P100 (PCI-Express) | Tesla P100 (SXM2) | Tesla V100 (SXM2) | NVIDIA A100 (SXM4) | NVIDIA H100 (SMX4?) |
---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GP100 (Pascal) | GV100 (Volta) | GA100 (Ampere) | GH100 (Hopper) |
Process Node | 28nm | 28nm | 16nm | 16nm | 12nm | 7nm | 5nm |
Transistors | 7.1 Billion | 8 Billion | 15.3 Billion | 15.3 Billion | 21.1 Billion | 54.2 Billion | TBD |
GPU Die Size | 551 mm2 | 601 mm2 | 610 mm2 | 610 mm2 | 815mm2 | 826mm2 | ~1000mm2? |
SMs | 15 | 24 | 56 | 56 | 80 | 108 | 134 (Per Module) |
TPCs | 15 | 24 | 28 | 28 | 40 | 54 | TBD |
FP32 CUDA Cores Per SM | 192 | 128 | 64 | 64 | 64 | 64 | 64? |
FP64 CUDA Cores / SM | 64 | 4 | 32 | 32 | 32 | 32 | 32? |
FP32 CUDA Cores | 2880 | 3072 | 3584 | 3584 | 5120 | 6912 | 8576 (Per Module) 17152 (Complete) |
FP64 CUDA Cores | 960 | 96 | 1792 | 1792 | 2560 | 3456 | 4288 (Per Module)? 8576 (Complete)? |
Tensor Cores | N/A | N/A | N/A | N/A | 640 | 432 | TBD |
Texture Units | 240 | 192 | 224 | 224 | 320 | 432 | TBD |
Boost Clock | 875 MHz | 1114 MHz | 1329MHz | 1480 MHz | 1530 MHz | 1410 MHz | ~1400 MHz |
TOPs (DNN/AI) | N/A | N/A | N/A | N/A | 125 TOPs | 1248 TOPs 2496 TOPs with Sparsity | TBD |
FP16 Compute | N/A | N/A | 18.7 TFLOPs | 21.2 TFLOPs | 30.4 TFLOPs | 312 TFLOPs 624 TFLOPs with Sparsity | 779 TFLOPs (Per Module)? 1558 TFLOPs with Sparsity (Per Module)? |
FP32 Compute | 5.04 TFLOPs | 6.8 TFLOPs | 10.0 TFLOPs | 10.6 TFLOPs | 15.7 TFLOPs | 19.4 TFLOPs 156 TFLOPs With Sparsity | 24.2 TFLOPs (Per Module)? 193.6 TFLOPs With Sparsity? |
FP64 Compute | 1.68 TFLOPs | 0.2 TFLOPs | 4.7 TFLOPs | 5.30 TFLOPs | 7.80 TFLOPs | 19.5 TFLOPs (9.7 TFLOPs standard) | 24.2 TFLOPs (Per Module)? (12.1 TFLOPs standard)? |
Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 | 4096-bit HBM2 | 6144-bit HBM2e | 6144-bit HBM2e |
Memory Size | 12 GB GDDR5 @ 288 GB/s | 24 GB GDDR5 @ 288 GB/s | 16 GB HBM2 @ 732 GB/s 12 GB HBM2 @ 549 GB/s | 16 GB HBM2 @ 732 GB/s | 16 GB HBM2 @ 900 GB/s | Up To 40 GB HBM2 @ 1.6 TB/s Up To 80 GB HBM2 @ 1.6 TB/s | Up To 100 GB HBM2e @ 3.5 Gbps |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB | 4096 KB | 6144 KB | 40960 KB | 81920 KB |
TDP | 235W | 250W | 250W | 300W | 300W | 400W | ~450-500W |