Intel presenta el chip acelerador Gaudi 3 para grandes clústeres de IA

[ad_1]

Este artículo es parte de TechXchanges: Generación de IA y chiplets: conocimientos sobre automatización del diseño electrónico.

Intel está desafiando la corona de inteligencia artificial (IA) de NVIDIA con su último acelerador de IA para centros de datos: el Gaudi 3.

Las empresas de tecnología a la vanguardia del auge de la IA están agrupando decenas de miles de chips en redes extensas de gran ancho de banda para entrenar y ejecutar grandes modelos de lenguaje (LLM) creados por Google, Meta, OpenAI y un número creciente de nuevas empresas de IA. . Según Intel, el Gaudí de próxima generación está diseñado expresamente para integrarse en estos enormes grupos de IA para entrenar y razonar modelos de IA con hasta billones de parámetros.

El Gaudi 3 introduce mejoras en todo, desde los transistores hasta los núcleos del acelerador, el silicio de la red y la memoria de alto ancho de banda (HBM) circundante, aumentando significativamente el rendimiento. Aunque se basa en la misma arquitectura básica que el Gaudi 2, Intel dice que el Gaudi 3 ofrece el doble de rendimiento al calcular unidades de datos más pequeñas basadas en números de punto flotante de 8 bits llamados FP8. Funciona cuatro veces más rápido cuando se utiliza el formato de coma flotante de 16 bits de mayor precisión llamado BF16.

Gaudi 3, que consta de 10 bloques de silicio separados en el mismo chasis, también tiene el doble de ancho de banda de red y 1,5 veces más HBM que Gaudi 2, lanzado en 2022.

Según Intel, el nuevo acelerador de IA de última generación se caracteriza por su capacidad de escalar de manera flexible desde un solo nodo hasta grandes clústeres conectados a través de Ethernet. "Gaudi es un acelerador único en el sentido de que integra no solo computación y almacenamiento, sino también puertos de interfaz de red utilizados tanto para la ampliación como para la ampliación", dijo Eitan Medina de Habana Labs, la entidad detrás de la familia Gaudi -AI de chips Intel.

La próxima generación Gaudi 3 integra interfaces de red de 24 200 Gbit/s basadas en RDMA sobre Ethernet convergente (RoCEv2), duplicando el ancho de banda de los 24 puertos Ethernet de 100 Gbit/s de su predecesor y reemplazando las tarjetas de interfaz de red (NIC) en el sistema. . Utiliza Ethernet estándar de la industria para interactuar con otros aceleradores Gaudi en el mismo servidor, en el mismo rack e incluso en otros racks del centro de datos.

Intel presentó Gaudi 3 en el reciente evento Vision de la compañía en Phoenix, Arizona.

Gaudí 3: Más núcleos, más chiplets, más rendimiento

El Gaudi 3 consta de un par de chips heterogéneos que tienen todas las características del SoC de alto rendimiento, incluidos los aceleradores de IA, la memoria en el chip, las redes y la conectividad con el HBM.

Estos paneles de silicio se basan en la tecnología de proceso de 5 nm de TSMC y representan un importante salto generacional en rendimiento con respecto a los transistores de la segunda generación Gaudi 2, que se basa en el proceso de 7 nm. Al dividir el procesador en un par de chiplets que son imágenes especulares entre sí y empaquetarlos para imitar un solo chip, los chips de silicio pueden hacerse más grandes de lo habitual para acomodar más transistores.

El motor informático heterogéneo en el corazón del Gaudi 3 consta de 64 núcleos de procesador tensorial (TPC) programables de próxima generación dedicados a la IA, frente a los 24 TPC de la segunda generación. También está equipado con ocho motores de multiplicación de matrices (MME). Cada MME consta de una cuadrícula de 256 x 256 de núcleos más pequeños que realizan hasta 64 000 operaciones de acumulación múltiple (MAC) por ciclo, lo que le otorga un alto grado de eficiencia computacional en la ejecución de las operaciones matriciales que son el núcleo del aprendizaje automático.

Aunque no tiene la multitud de núcleos aceleradores que se encuentran en las últimas GPU de centros de datos, Intel dice que el Gaudi 3 tiene un número menor de unidades de multiplicación de matriz más grandes para poder enviarles datos de manera más rápida y eficiente.

El acelerador ofrece un rendimiento de hasta 1.835 billones de operaciones de punto flotante por segundo (TFLOPS) cuando se realizan operaciones de IA en el FP8, que es aproximadamente el doble que el Gaudí 2. Estos formatos de datos más pequeños son más rápidos y más eficientes energéticamente para computar, y requieren menos memoria. Por lo tanto, se prefieren para entrenar transformadores, un tipo de red neuronal que se utiliza a menudo para la IA generativa. NVIDIA también puede ejecutar cálculos de IA utilizando FP8, el estándar de oro actual para el silicio de IA, en su GPU Hopper H100.

El Gaudi 3 está equipado con ocho chips HBM de 16 GB en el mismo chasis, lo que da un total de hasta 128 GB de HBM2E ampliado, frente a los 96 GB de su predecesor. El ancho de banda de almacenamiento es de 3,7 TB/s desde 2,4 TB/s. Al albergar más memoria al mismo tiempo que el propio chip acelerador, se pueden alojar en el chip modelos de IA más grandes y avanzados (o porciones más grandes de ellos), ahorrando energía y aumentando el rendimiento.

El chip agrega el doble de memoria interna con 96 MB de SRAM. La capacidad de memoria en el chip es limitada, por lo que HBM se está volviendo cada vez más importante para reducir la latencia y el consumo de energía para el entrenamiento y la inferencia.

Ethernet: la columna vertebral del Gaudi 3 de próxima generación de Intel

Si bien los núcleos aceleradores específicos de IA y la memoria de gran ancho de banda son el corazón del Gaudi 3, hay más que eso. Según Intel, la característica más llamativa es la enorme y flexible capacidad de conexión en red en el chip.

Los modelos de IA más avanzados se expanden en un orden de magnitud con cada generación. En este contexto, se trata de tecnologías de red de gran ancho de banda y baja latencia que pueden transferir datos entre aceleradores de IA en el mismo servidor (también conocido como "scale-up" en el lenguaje de la industria de semiconductores) y entre los servidores y racks que los componen. ser transferido – también llamado “escalamiento horizontal” – convertirse en una pieza más grande del rompecabezas de la IA.

NVIDIA utiliza su conexión NVLink para conectar GPU dentro del mismo servidor y rack. Para conectar grupos más grandes de decenas de miles de sus chips de IA, la empresa utiliza su tecnología de red InfiniBand.

[ad_2]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *


Subir