El filtrador @kopite7kimi ha desvelado detalles sobre las GPUs Ada Lovelace para gaming de las próximas GeForce RTX 40. Empezando con la GPU, tenemos que la GPU más top, la AD102, supera con claridad a las Ampere GA102 y Turin TU102. Hablamos de las GPUs para gaming. Recuerda que para centros de datos, NVIDIA tiene las GPUs Hopper GH100 así como las Ampere GA100.

La GPU AD102 tiene 12 GPCs (Graphic Processsing Clusters), un 70% más que las GA102 con 7 GPCs. Cada GPC tiene 6 TPCs y 2 SMs, que es la misma configuración que las Ampere. Cada SM (Stream Multiprocessor) tiene cuatro sub-cores como la GA102. Lo que cambia es la configuración FP32 e INT32 para los cores. Cada subcore incluye 128 unidades FP32 y 192 unidades FP32 + INT32. Las unidades FP32 no comparten el mismo subcore que las unidades INT32. Los 128 cores FP32 están separados de los 64 cores INT32.
En total tenemos 192 unidades FP32 e INT32 para cada subcore. Cada SM tiene un total de 512 unidades FP32 y 256 INT32 para un total de 768 unidades. Como hay 24 SMs, tenemos 12.288 unidades FP32 y 6.144 INT32 para un total de 18.432 cores. Cada SM tiene dos Wrap Schedules para un total de 64 wraps por cada SM. Es un 50% más en los cores y un 33% más en los Wraps/threads que las GPUs GA102.
NVIDIA Ada Lovelace GPU Specs 'Preliminary':
| GPU Name | AD102 | GA102 | TU102 | GA100 | GH100 |
|---|
| GPC | 12 (Per GPU) | 1.7x | 2x | 1.5x | 1.5x |
| TPC | 6 (Per GPC) | Same | Same | 0.75x | 0.67x |
| SM | 2 (Per TPC) | Same | Same | Same | Same |
| Sub-Core | 4 (Per SM) | Same | Same | Same | Same |
| FP32 | 128 (Per SM) | Same | 2x | 2x | Same |
| FP32+INT32 | 192 (Per SM) | 1.5x | 1.5x | 1.5x | Same |
| Warps | 64 (Per SM) | 1.33x | 2x | Same | Same |
| Threads | 2048 (Per SM) | 1.33x | 2x | Same | Same |
| L1 Cache | 192 KB (Per SM) | 1.5x | 2x | Same | 0.75x |
| L2 Cache | 96 MB (Per GPU) | 16x | 16x | 2.4x | 1.6x |
| ROPs | 32 (Per GPC) | 2x | 2x | 2x | 2x |
En la caché tenemos 192 KB de caché L1 para cada SM, que es un 50% más que Ampere. Es un total de 4,5 MB de cahcé L1 en las AD102. La caché L2 llega hasta los 96 MB. Es 16x más caché L2 que Ampere, que venía con 6 MB. Además, los ROPs pasan a ser 32 por cada GPC, que es 2x frente a Ampere. Tenemos 384 ROPs frente a 112 en las Ampere más top, como la RTX 3090 Ti. Además, tendremos cores Tensor de 4ª generación y cores RT de 3ª generación.

Estos cores mejorarán el rendimiento de DLSS y el trazado de rayos. En total tenemos:
- 2x GPCs (Versus Ampere)
- 50% More Cores (Versus Ampere)
- 50% More L1 Cache (Versus Ampere)
- 16x More L2 Cache (Versus Ampere)
- Double The ROPs (Versus Ampere)
- 4th Gen Tensor & 3rd Gen RT Cores
Las velocidades de reloj estarán en el rango de los 2 GHz - 3 GHz. Las GPUs Ada Lovelace llegarán en la segunda mitad de 2022 y usarán el nodo TSMC 4N, como ya hacen las GPUs Hopper H100.
NVIDIA CUDA GPU (RUMORED) Preliminary:
| GPU | TU102 | GA102 | AD102 |
|---|
| Flagship SKU | RTX 2080 Ti | RTX 3090 Ti | RTX 4090? |
| Architecture | Turing | Ampere | Ada Lovelace |
| Process | TSMC 12nm NFF | Samsung 8nm | TSMC 4N? |
| Die Size | 754mm2 | 628mm2 | ~600mm2 |
Graphics Processing Clusters (GPC) | 6 | 7 | 12 |
Texture Processing Clusters (TPC) | 36 | 42 | 72 |
Streaming Multiprocessors (SM) | 72 | 84 | 144 |
| CUDA Cores | 4608 | 10752 | 18432 |
| L2 Cache | 6 MB | 6 MB | 96 MB |
| Theoretical TFLOPs | 16 TFLOPs | 40 TFLOPs | ~90 TFLOPs? |
| Memory Type | GDDR6 | GDDR6X | GDDR6X |
| Memory Capacity | 11 GB (2080 Ti) | 24 GB (3090 Ti) | 24 GB (4090?) |
| Memory Speed | 14 Gbps | 21 Gbps | 24 Gbps? |
| Memory Bandwidth | 616 GB/s | 1.008 GB/s | 1152 GB/s? |
| Memory Bus | 384-bit | 384-bit | 384-bit |
| PCIe Interface | PCIe Gen 3.0 | PCIe Gen 4.0 | PCIe Gen 4.0 |
| TGP | 250W | 350W | 600W? |
| Release | Sep. 2018 | Sept. 20 | 2H 2022 (TBC) |