Nota de Prensa
SAN FRANCISCO, Calif., —10 de octubre, 2024 — Hoy, AMD (NASDAQ: AMD) ha anunciado las nuevas soluciones de aceleradoras y redes que impulsarán la próxima generación de infraestructuras de IA a escala: Las aceleradoras AMD Instinct™ MI325X, la NIC AMD Pensando™ Pollara 400 y la DPU AMD Pensando Salina. Las aceleradoras AMD Instinct MI325X establecen un nuevo estándar en rendimiento para modelos y centros de datos Gen AI.
Construidas sobre la arquitectura AMD CDNA™ 3, las aceleradoras AMD Instinct MI325X están diseñadas para ofrecer un rendimiento y eficiencia excepcionales para las exigentes tareas de IA que abarcan el entrenamiento, el ajuste fino y la inferencia de modelos de base. Juntos, estos productos permiten a los clientes y socios de AMD crear soluciones de IA optimizadas y de alto rendimiento a nivel de sistema, rack y centro de datos.
“AMD sigue cumpliendo nuestra hoja de ruta, ofreciendo a los clientes el rendimiento que necesitan y la elección que desean, para llevar la infraestructura de IA, a escala, al mercado más rápidamente”, asegura Forrest Norrod, executive vice president y general manager, Data Center Solutions Business Group, en AMD. “Con las nuevas aceleradoras AMD Instinct, los procesadores EPYC y los motores de red AMD Pensando, el crecimiento continuo de nuestro ecosistema de software abierto y la capacidad de unir todo esto en una infraestructura de IA optimizada, AMD subraya la experiencia crítica para construir y desplegar soluciones de IA de clase mundial”.
AMD Instinct MI325X aumenta el rendimiento líder en IA
Las aceleradoras AMD Instinct MI325X ofrecen una capacidad de memoria y un ancho de banda líderes en el sector, con 256 GB de HBM3E que admiten 6,0 TB/s y ofrecen 1,8 veces más capacidad y 1,3 veces más ancho de banda que el H2001. AMD Instinct MI325X también ofrece 1,3 veces más rendimiento teórico máximo en FP16 y FP8 que el H200[i].
Este liderazgo de memoria y cálculo puede proporcionar hasta 1,3 veces el rendimiento de inferencia de Mistral 7B en FP16[ii], 1,2 veces el rendimiento en inferencia con Llama 3.1 70B a FP8[iii] y 1,4 veces el rendimiento en inferencia con Mixtral 8x7B a FP16 frente a H200[iv].
Las aceleradoras AMD Instinct MI325X van de camino para los envíos de producción del cuarto trimestre de 2024 y se espera que tengan una amplia disponibilidad de sistemas de un amplio conjunto de proveedores de plataformas, incluyendo Dell Technologies, Eviden, Gigabyte, Hewlett Packard Enterprise, Lenovo, Supermicro y otros a partir del primer trimestre de 2025.
Continuando con su compromiso de mantener una cadencia anual, AMD ha presentado la próxima generación de aceleradoras AMD Instinct MI350 Series. Basadas en la arquitectura AMD CDNA 4, las aceleradoras AMD Instinct MI350 Series están diseñadas para ofrecer una mejora de 35 veces en el rendimiento de inferencia en comparación con aceleradoras basadas en AMD CDNA 3[v].
AMD Instinct MI350 Series seguirá liderando la capacidad de memoria con hasta 288 GB de memoria HBM3E por aceleradora. Las aceleradoras AMD Instinct MI350 Series están en proceso de estar disponibles durante la segunda mitad de 2025.
Redes IA de nueva generación AMD
AMD aprovecha la DPU programable más extendida para hiperescaladores al impulsar las redes de IA de próxima generación. Dividida en dos partes: el front-end, que entrega datos e información a un clúster de IA, y el back-end, que gestiona la transferencia de datos entre aceleradoras y clústeres, la red de IA es fundamental para garantizar que las CPU y las aceleradoras se utilicen de forma eficiente en la infraestructura de IA.
Para gestionar eficazmente estas dos redes e impulsar el alto rendimiento, la escalabilidad y la eficiencia en todo el sistema, AMD ha presentado la DPU AMD Pensando™ Salina para el front-end y la AMD Pensando™ Pollara 400, la primera AI NIC preparada para Ultra Ethernet Consortium (UEC) del sector, para el back-end.
La DPU AMD Pensando Salina es la tercera generación de la DPU más potente y programable del mundo, que multiplica por dos el rendimiento, el ancho de banda y la escala en comparación con la generación anterior. La DPU AMD Pensando Salina, que admite un rendimiento de 400G para tasas de transferencia de datos rápidas, es un componente fundamental en los clústeres de red front-end de IA, que optimiza el rendimiento, la eficiencia, la seguridad y la escalabilidad de las aplicaciones de IA basadas en datos.
La AMD Pensando Pollara 400, preparada para UEC e impulsada por el motor AMD P4 Programmable, es la primera NIC de IA preparada para UEC del sector. Es compatible con el software RDMA de próxima generación y está respaldada por un ecosistema abierto de redes. AMD Pensando Pollara 400 es fundamental para proporcionar un rendimiento de liderazgo, escalabilidad y eficiencia de la comunicación acelerador a acelerador en redes back-end.
Tanto AMD Pensando Salina DPU como AMD Pensando Pollara 400 se pondrán a disposición de los clientes en el cuarto trimestre de 2024 y su disponibilidad está prevista para el primer semestre de 2025.
El software AMD de IA ofrece nuevas capacidades para la IA generativa
AMD mantiene su inversión en el impulso al software y el ecosistema abierto, para ofrecer nuevas y potentes características y capacidades en la pila de software abierto AMD ROCm™. Dentro de la comunidad de software abierto, AMD impulsa la compatibilidad con los motores de computación de AMD en los marcos, bibliotecas y modelos de IA más utilizados, incluidos PyTorch, Triton, Hugging Face y muchos otros. Este trabajo se traduce en un rendimiento y soporte listos para usar con las aceleradoras AMD Instinct en modelos de IA generativa populares como Stable Diffusion 3, Meta Llama 3, 3.1 y 3.2 y más de un millón de modelos en Hugging Face.
Más allá de la comunidad, AMD continúa avanzando en su pila de software abierto ROCm, aportando las últimas características para apoyar el entrenamiento y la inferencia líderes en cargas de trabajo de IA Generativa. ROCm 6.2 ahora incluye soporte para características críticas de IA como el tipo de datos FP8, Flash Attention 3, Kernel Fusion y más. Con estas nuevas incorporaciones, ROCm 6.2, en comparación con ROCm 6.0, proporciona hasta 2,4 veces más rendimiento en inferencia[vi] y 1,8 veces en entrenamiento para diversos LLM[vii].
[i]MI325-002 -Calculations conducted by AMD Performance Labs as of May 28th, 2024 for the AMD Instinct™ MI325X GPU resulted in 1307.4 TFLOPS peak theoretical half precision (FP16), 1307.4 TFLOPS peak theoretical Bfloat16 format precision (BF16), 2614.9 TFLOPS peak theoretical 8-bit precision (FP8), 2614.9 TOPs INT8 floating-point performance. Actual performance will vary based on final specifications and system configuration.
Published results on Nvidia H200 SXM (141GB) GPU: 989.4 TFLOPS peak theoretical half precision tensor (FP16 Tensor), 989.4 TFLOPS peak theoretical Bfloat16 tensor format precision (BF16 Tensor), 1,978.9 TFLOPS peak theoretical 8-bit precision (FP8), 1,978.9 TOPs peak theoretical INT8 floating-point performance. BFLOAT16 Tensor Core, FP16 Tensor Core, FP8 Tensor Core and INT8 Tensor Core performance were published by Nvidia using sparsity; for the purposes of comparison, AMD converted these numbers to non-sparsity/dense by dividing by 2, and these numbers appear above.
Nvidia H200 source: https://nvdam.widen.net/s/nb5zzzsjdf/hpc-datasheet-sc23-h200-datasheet-3002446 and https://www.anandtech.com/show/21136/nvidia-at-sc23-h200-accelerator-with-hbm3e-and-jupiter-supercomputer-for-2024
Note: Nvidia H200 GPUs have the same published FLOPs performance as H100 products https://resources.nvidia.com/en-us-tensor-core/.
[ii] Based on testing completed on 9/28/2024 by AMD performance lab measuring overall latency for Mistral-7B model using FP16 datatype. Test was performed using input length of 128 tokens and an output length of 128 tokens for the following configurations of AMD Instinct™ MI325X GPU accelerator and NVIDIA H200 SXM GPU accelerator.
1x MI325X at 1000W with vLLM performance: 0.637 sec (latency in seconds)
Vs.
1x H200 at 700W with TensorRT-LLM: 0.811 sec (latency in seconds)
Configurations:
AMD Instinct™ MI325X reference platform:
1x AMD Ryzen™ 9 7950X 16-Core Processor CPU, 1x AMD Instinct MI325X (256GiB, 1000W) GPU, Ubuntu® 22.04, and ROCm™ 6.3 pre-release
Vs
NVIDIA H200 HGX platform:
Supermicro SuperServer with 2x Intel Xeon® Platinum 8468 Processors, 8x Nvidia H200 (140GB, 700W) GPUs [only 1 GPU was used in this test], Ubuntu 22.04), CUDA 12.6 Server manufacturers may vary configurations, yielding different results. Performance may vary based on use of latest drivers and optimizations. MI325-005
[iii] MI325-006: Based on testing completed on 9/28/2024 by AMD performance lab measuring overall latency for LLaMA 3.1-70B model using FP8 datatype. Test was performed using input length of 2048 tokens and an output length of 2048 tokens for the following configurations of AMD Instinct™ MI325X GPU accelerator and NVIDIA H200 SXM GPU accelerator.
1x MI325X at 1000W with vLLM performance: 48.025 sec (latency in seconds)
Vs.
1x H200 at 700W with TensorRT-LLM: 62.688 sec (latency in seconds)
Configurations:
AMD Instinct™ MI325X reference platform:
1x AMD Ryzen™ 9 7950X 16-Core Processor CPU, 1x AMD Instinct MI325X (256GiB, 1000W) GPU, Ubuntu® 22.04, and ROCm™ 6.3 pre-release
Vs
NVIDIA H200 HGX platform:
Supermicro SuperServer with 2x Intel Xeon® Platinum 8468 Processors, 8x Nvidia H200 (140GB, 700W) GPUs, Ubuntu 22.04), CUDA 12.6
Server manufacturers may vary configurations, yielding different results. Performance may vary based on use of latest drivers and optimizations.
[iv] MI325-004: Based on testing completed on 9/28/2024 by AMD performance lab measuring text generated throughput for Mixtral-8x7B model using FP16 datatype. Test was performed using input length of 128 tokens and an output length of 4096 tokens for the following configurations of AMD Instinct™ MI325X GPU accelerator and NVIDIA H200 SXM GPU accelerator.
1x MI325X at 1000W with vLLM performance: 4598 (Output tokens / sec)
Vs.
1x H200 at 700W with TensorRT-LLM: 2700.7 (Output tokens / sec)
Configurations:
AMD Instinct™ MI325X reference platform:
1x AMD Ryzen™ 9 7950X CPU, 1x AMD Instinct MI325X (256GiB, 1000W) GPU, Ubuntu® 22.04, and ROCm™ 6.3 pre-release
Vs
NVIDIA H200 HGX platform:
Supermicro SuperServer with 2x Intel Xeon® Platinum 8468 Processors, 8x Nvidia H200 (140GB, 700W) GPUs [only 1 GPU was used in this test], Ubuntu 22.04) CUDA® 12.6
Server manufacturers may vary configurations, yielding different results. Performance may vary based on use of latest drivers and optimizations.
[v] CDNA4-03: Inference performance projections as of May 31, 2024 using engineering estimates based on the design of a future AMD CDNA 4-based Instinct MI350 Series accelerator as proxy for projected AMD CDNA™ 4 performance. A 1.8T GPT MoE model was evaluated assuming a token-to-token latency = 70ms real time, first token latency = 5s, input sequence length = 8k, output sequence length = 256, assuming a 4x 8-mode MI350 series proxy (CDNA4) vs. 8x MI300X per GPU performance comparison.. Actual performance will vary based on factors including but not limited to final specifications of production silicon, system configuration and inference model and size used.
[vi] MI300-62: Testing conducted by internal AMD Performance Labs as of September 29, 2024 inference performance comparison between ROCm 6.2 software and ROCm 6.0 software on the systems with 8 AMD Instinct™ MI300X GPUs coupled with Llama 3.1-8B, Llama 3.1-70B, Mixtral-8x7B, Mixtral-8x22B, and Qwen 72B models.
ROCm 6.2 with vLLM 0.5.5 performance was measured against the performance with ROCm 6.0 with vLLM 0.3.3, and tests were performed across batch sizes of 1 to 256 and sequence lengths of 128 to 2048.
Configurations:
1P AMD EPYC™ 9534 CPU server with 8x AMD Instinct™ MI300X (192GB, 750W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA per socket), 1.5 TiB (24 DIMMs, 4800 mts memory, 64 GiB/DIMM), 4x 3.49TB Micron 7450 storage, BIOS version: 1.8, , ROCm 6.2.0-00, vLLM 0.5.5, PyTorch 2.4.0, Ubuntu® 22.04 LTS with Linux kernel 5.15.0-119-generic.
vs.
1P AMD EPYC 9534 CPU server with 8x AMD Instinct™ MI300X (192GB, 750W) GPUs, Supermicro AS-8125GS-TNMR2, NPS1 (1 NUMA per socket), 1.5TiB 24 DIMMS, 4800 mts memory, 64 GiB/DIMM), 4x 3.49TB Micron 7450 storage, BIOS version: 1.8, ROCm 6.0.0-00, vLLM 0.3.3, PyTorch 2.1.1, Ubuntu 22.04 LTS with Linux kernel 5.15.0-119-generic.
Server manufacturers may vary configurations, yielding different results. Performance may vary based on factors including but not limited to different versions of configurations, vLLM, and drivers.
[vii] MI300-61: Measurements conducted by AMD AI Product Management team on AMD Instinct™ MI300X GPU for comparing large language model (LLM) performance with optimization methodologies enabled and disabled as of 9/28/2024 on Llama 3.1-70B and Llama 3.1-405B and vLLM 0.5.5.
System Configurations:
- AMD EPYC 9654 96-Core Processor, 8 x AMD MI300X, ROCm™ 6.1, Linux® 7ee7e017abe3 5.15.0-116-generic #126-Ubuntu® SMP Mon Jul 1 10:14:24 UTC 2024 x86_64 x86_64 x86_64 GNU/Linux, Frequency boost: enabled.
Performance may vary on factors including but not limited to different versions of configurations, vLLM, and drivers.