En una segunda reunión donde hemos podido hablar con representantes en España, nos han comunicado que la compañía está especialmente interesada en abordar todas las necesidades de sus clientes y, que son muy conscientes de la importancia de los entornos compute hoy en día. Es por esto que dentro del ambicioso ecosistema que nos han presentado, han hecho un esfuerzo titánico en un proyecto con nombre en código Ponte Vecchio, en el que han diseñado desde 0 una XeHPG con una escalabilidad pasmosa.


Cada Xe - core tiene 8 Vector Engines con 512 bits por motor y 8 Matrix Engines con 4096 bits por motor. Cuenta además con almacenamiento intermedio de 512 bytes por clock y 512 KB de caché L1. Resumimos las operaciones por ciclo de ambos motores con la siguiente tabla:
Motor | FP16 | FP32 | FP64 | BF16 | TF32 | INT8 |
Vector | 512 | 256 | 256 | NA | NA | NA |
Matrix | 4096 | NA | NA | 4096 | 2048 | 8192 |

16 de estos cores forman un slice, que significa cortada o loncha en castellano. Este bloque suma 8 megas de caché L1 y 16 RT cores. Aquí es cuando llega el vértigo, los slices se pueden "stackear" hasta dos veces, en cada stack se le añaden 4 controladoras HBM2e, un Media Engine y 8 enlaces Xe.


Pero, la escalabilidad no se acaba aquí, este link Xe puede enlazar 8 stacks dobles. Analizando en profundidad la construcción de esta gráfica con nombre en código Ponte Vecchio vemos que cada Compute Tile de 8 Xe - cores con 4 MB de caché L1 está fabricado por TSMC en un nodo de 5 nm. Estos se asientan sobre un Base Tile de 10 nm Intel 7 con un área de 640 mm2 y se apilan gracias a la tecnología Intel Foveros, alcanzando 144 MB de caché L2, mientras que el Xe Link Tile también lo produce TSMC pero, con una litografía de 7 nanómetros.


Según las estimaciones de Intel, el rendimiento FP32 superaría los 45 TFLOPS con un ancho de banda en su Memory Fabric por encima de 5 TB/s y de 2 TB/s en su conectividad. Intel calcula que en el bench ResNet-50 supera en 3 mil imágenes por segundo a la competencia, alcanzando un total de 43.000. Ponte Vecchio se comercializará como un componente OEM, en subsistemas de 4 GPUs e incluidos en un rack con dos Sapphire Rapids.

Para gestionar todo este brutal potencial Ray Tracing y de computación, Intel ha desarrollado el software oneAPI con el que unificar la gestión de aplicaciones y servicios, librerías de bajo nivel y lenguajes, con el objetivo de evitar sobrecargas en dispositivos de aceleración. Se ha implementado en oneAPI compatibilidades con GPUs AMD y Nvidia, CPU Arm y ASICs Huawei.
