Fabricante: GIGABYTE
Modelo: GeForce RTX 4090 GAMING OC 24G
Chip: GeForce RTX 4090 (AD 102)
Velocidad: 2535 MHz
Memoria: 24 GB GDDR6X
Conexión: PCIe 4.0 x16
La llegada de la nueva generación de NVIDIA no llega exenta de polémica, cuando el fantasma de la minería de criptodivisas se disipó se esperaba una reducción de precios que finalmente no ha supuesto una vuelta a la normalidad. Con este contexto se han anunciado tres modelos GeForce RTX 40 con un RTX 4080 de 12 GB que en nuestra opinión debería haber recibido el nombre de RTX 4070, por su recorte en el bus de memoria. El precio, el consumo y el tamaño son otros puntos que han generado controversia, y es que la RTX 4090 de referencia tiene un TGP de 450W, ocupa 3 slots y el MSRP es de 1,599$, un desembolso que tras el cambio de divisa y el IVA, es prohibitivo para muchos usuarios.
Una de las novedades más destacadas es el cambio de proveedor del chip del núcleo, NVIDIA ha pasado de un core con tecnología Samsung de 8 nm a una litografía de 5 nm a medida de TSMC: el 4N. El nombre en código del chip RTX 4090 es AD 102, cuenta con 76.300 millones de transistores, un 63% más que los 28.300 millones de la GeForce RTX 3090 Ti. Los núcleos CUDA también tienen un incremento notorio, hay un 70% más frente al anterior buque insignia: el GA 102. La frecuencia turbo en el modelo de referencia es de 2,52 GHz. Podemos ver la evolución de las 3 generaciones RTX en la siguiente tabla carcaterísticas:
Este chip AD 102 mide 608,5 mm² y cuenta con 12 clústeres de procesamiento gráfico o GPC, 6 a cada lado de los 96 MB de caché L2, dentro de cada clúster hay 6 subclústeres para el procesamiento de texturas o TPC (un total de 72) y dentro de estos de Stream Mutliprocesors. Estos SM albergan los CUDA cores y la caché L1. Formando una interfaz de memoria de 384 bits hay 6 controladoras de memoria a cada lado, de 32 bits cada una. Hay dos núcleos para cálculos de coma flotante FP64 por SM, o lo que es lo mismo: 288 cores FP64.
Dentro de cada GPC tenemos un motor de rasterización y 2 particiones de 8 ROPs, lo que nos lleva a un conteo de 192 ROPs, no los 176 que hemos visto en especificaciones. NVIDIA nos ha explicado que cada SM tiene 128 núcleos CUDA, lo que significaría un total de 18.432. En especificaciones vemos 16.384. Dentro de cada SM se encuentran también un núcleo RT de tercera generación, 4 núcleos Tensor de cuarta generación, 256 KB de archivo de registro y un total de 128KB L1 o memoria compartida.
Las arquitecturas previas Turing y Ampere utilizan hardware dedicado, el Box Intersection Engine, representado en el cuadro izquierdo de la siguiente primera imagen, que acelera mediante BHV (Bounding Volume Hierarchy) para la estructura de datos en los cálculos de triangulación e intersección, liberando a los SM de las principales tareas del trazado de rayos con el cálculo de vértices o sombreado.
Con la arquitectura Ada Lovelace en esta RTX 4090 se introducen el Opacity Micromap Engine y el Display Micro-Mesh Engine en el hardware dedicado al trazado de rayos de tercera generación.
- Opacity Micromap Engine: El recorrido Alpha en el trazado de rayos hace referencia a la opacidad o transparencia de las partículas. Es una tecnología con la que liberar el gBuffer o caché para geometría acotando zonas, o lo que es lo mismo, creando micromapas que permitan al RT core ajustar niveles de opacidad de manera más eficiente. NVIDIA ha calculado en Portal RT una eficiencia de rellenado del buffer un 30% superior, con un impacto en el rendimiento (FPS) del 10%.
- Display Micro-Mesh Engine: Esta es una tecnología para generar cálculos geométricos complejos con más eficiencia. Es una ayuda que libera hasta en 20 veces la necesidad de almacenamiento para texturas geométricas, impulsando este proceso del BVH hasta 10 veces. A un triángulo básico se le suma al procesamiento un mapa de desplazamiento que ayuda a moldear la imagen poligonal en una malla compleja con un menor cálculo poligonal. Podríamos imaginar un triángulo simple al que se le añade una dimensión más.
El ejemplo que nos ha planteado NVIDIA es muy adecuado para escenificar el Shader Execution Reordering. El gigante verde nos proponía imaginar una fábrica con varios trabajadores ajustando tornillos, cada uno de un tipo, como ocurre con una secuencia Pipeline. Entendamos esta tecnología como lo que impulsó Henry Ford tantos años atrás, democratizando el automóvil. Es más eficiente tener a cada trabajador ajustando un tipo de tornillo en cadena.
NVIDIA ha buscado romper la rasterización tradicional, triangulando los rebotes del trazado de rayos escaneando el conjunto con una reagrupación que da un paso más allá. Es un programador que dirige en tiempo real las tareas al SM y sistemas de memoria, para ayudar a mejorar los cuellos de botella en el cálculo del trazado de rayos, aumentando la eficiencia en un 25 %.
Desde que vimos aquel trazado de rayos tan demandante en Battlefield V para la primera arquitectura RTX, Turing (GeForce serie 2000), las exigencias de esta tecnología han crecido de forma exponencial. En este primer título había 39 operaciones RT por píxel. Hoy en día, con Cyberpunk 2077 se alcanzan 635 operaciones por píxel, la exigencia ha crecido 4 veces por encima que el aumento de transistores. Con todo el conjunto de tecnologías NVIDIA estima que el rendimiento en trazado de rayos se ha doblado frente a la anterior generación.
En la capturas previas tenemos el resultado de una tecnología de interpolación, algo que ya hemos podido ver en programas dedicados para crear frames mediante estimaciones con programas como RIFE, mejorando la suavidad a costa de algunos artefactos, especialmente visibles cuanto menor tasa de frames hubieran de forma nativa. Al crear fotogramas estimados por IA, NVIDIA consigue doblar el número de FPS. Esta tecnología por el momento es exclusiva de esta última arquitectura RTX 40. Incluso en situaciones con cuello de CPU, como ocurre en Microsoft Flight Simulator, DLSS3 permite generar frames sin pérdida de rendimiento.
En este diagrama podemos ver los nuevos procesos en el DLSS de tercera generación. Si recordáis el diagrama del chip, tras su interfaz PCIe 4.0 y su motor GigaThread veíamos 6 potentes aceleradores NVENC para codificación y el Optical Flow Accelerator, un elemento clave en esta tecnología. Permite la estimación de movimiento en tiempo real, NVIDIA entrena esta IA con sus equipos de computación para que los artefactos no se produzcan o se minimicen ante posibles problemas de correlación entre los fotogramas nativos y los generados. Si se basara tan solo en los vectores de movimiento, la información geométrica que ofrece el juego sería insuficiente para los cálculos de los efectos de trazados de rayos, por ejemplo, ofreciendo sombras imprecisas y artefactos.
NVIDIA sigue apostando por un diseño del PCB compacto, lo que le permite mejorar la refrigeración, mejorando el flujo de aire en el lado contrario de los conectores de vídeo. En las Founders Edition opta por un segundo ventilador con diseño invertido en la parte superior para succionar aire (pull), mientras que el resto de fabricantes apuesta por diseños de 3 ventiladores (todos en push empujando) para sus tarjetas gráficas refrigeradas por aire, con una apertura al final del backplate. También debemos destacar el cambio del cable de alimentación PCIe 5 y la respuesta de la entrega de energía, con un diseño más compacto y capacidad hasta 600W. Este cable de nueva generación tiene 12 pines para alimentación y 4 digitales para gestión de la entrega de energía. La respuesta en la entrega de energía es ahora más rápida, permitiendo un ajuste más preciso a la necesidad de vatios.