SambaNova añade HBM al chip de inferencia LLM

[ad_1]

//php echo do_shortcode(‘[responsivevoice_button voice=»US English Male» buttontext=»Listen to Post»]’) ?>

PALO ALTO, California – SambaNova está lanzando un nuevo silicio específicamente para el ajuste y la inferencia de modelos de lenguaje grande (LLM) a escala. En comparación con la generación anterior de silicio SambaNova anunciada hace un año, el SN40L tiene más núcleos informáticos y, por primera vez, tiene memoria de alto ancho de banda (HBM). Se ha cambiado a un nodo de proceso más avanzado que el silicio de la generación anterior.

SambaNova dijo que puede servir 5 billones de modelos de parámetros con una longitud de secuencia de más de 256.000 desde un único sistema de ocho sockets. El modelo de 5 billones de parámetros en cuestión es un modelo experto gigante (MoE) que utiliza Llama-2 como enrutador. El mismo modelo requeriría 24 sistemas GPU de 8 zócalos de última generación, pero SambaNova puede escalar linealmente a modelos grandes con altas tasas de tokens por segundo de hasta 5 billones de parámetros, dijo Marshall Choy de SambaNova a EE Times.

SambaNova SN40L — El SN40L de SambaNova utiliza por primera vez HBM. (Fuente: EE Times)

«Siempre creímos que la memoria sería la clave», dijo. “El mercado ha jugado con la IA generativa y los grandes modelos de lenguaje. A medida que seguimos aumentando el número de parámetros, la memoria es el mayor cuello de botella”.

El concepto de ejecución de flujo de datos de SambaNova siempre ha incluido una gran SRAM en chip, cuya baja latencia y gran ancho de banda eliminaron la necesidad de HBM, especialmente en el escenario de entrenamiento. Esto permitió a la empresa ocultar el menor ancho de banda de los controladores DDR y al mismo tiempo aprovechar la gran capacidad de la DRAM.

El SN40L utiliza una combinación de 64 GB HBM3, 1,5 TB DDR5 DRAM y 520 MB SRAM por paquete (en ambos chiplets de cómputo).

«En la IA generativa, particularmente en preguntas y respuestas, es necesario poder ejecutar muchos núcleos pequeños muy rápidamente», dijo Choy. “HBM es realmente útil para este tipo de carga de trabajo de inferencia, por lo que ahora hemos introducido esta capa intermedia en nuestra arquitectura de almacenamiento y hemos realizado el trabajo de desarrollo de software posterior para permitirnos aprovechar al máximo estos niveles de almacenamiento, ya sea para baja latencia o alta ancho de banda o alta capacidad”.

Mientras que las dos generaciones anteriores de silicio SambaNova se basaban en 7 nm, SN40L se basa en TSMC 5 nm. El número de núcleos informáticos también ha aumentado hasta 140, sin ningún otro cambio importante en la arquitectura.

La carga de trabajo está pasando de la capacitación al ajuste y la inferencia, y SambaNova está evolucionando sus chips para satisfacer estas necesidades del mercado, dijo Choy, y agregó que el deseo de las empresas de adoptar rápidamente la IA generativa está acelerando las oportunidades de SambaNova. Señaló que un reciente contrato corporativo multimillonario con una empresa de servicios financieros tomó sólo 40 días, desde la reunión inicial hasta la firma del contrato.

“El año pasado se dijo mucho: ‘Separemos el presupuesto existente de otras cosas y reprogramémoslo para comenzar con la IA’, pero creo que este año y el próximo año calendario realmente se trata de asignar presupuestos desde el principio para proyectos más grandes. » él dijo. «¡Ahora las cosas se ponen realmente interesantes!»

Los clientes típicos compran (o alquilan) racks e filas de sistemas SambaNova DataScale, y se venden muy pocos sistemas de un solo nodo, dijo Choy, mientras que los clientes empresariales dan la bienvenida a modelos base de código abierto previamente entrenados a los que pueden agregar valor mediante ajustes. ellos con sus propios datos.

El silicio de tercera generación llega casi al día desde que SambaNova lanzó su segunda generación, la SN30.

Horarios EE en SambaNova — EE Times se reúne con Marshall Choy de SambaNova (derecha) (Fuente: EE Times)

«Siempre tenemos proyectos de chips paralelos», dijo Choy. «En cualquier momento dado, hay de tres a cinco proyectos simultáneos que se están financiando y en los que se está trabajando».

“El semidesarrollo no es para los débiles de corazón ni para los pequeños”, dijo Choy riendo, señalando que esto es posible, entre otras cosas, gracias a las enormes rondas de financiación que SambaNova ha recaudado en los últimos años.

«Por eso elegimos la arquitectura de flujo de datos reconfigurable», dijo. “Un ASIC habría sido mucho más simple…. El desarrollo de chips y compiladores para una arquitectura de flujo de datos reconfigurable tampoco es para los débiles de corazón, pero es necesario tener esa reconfigurabilidad porque hoy es necesario tener en sus manos el silicio que pueda seguir el ritmo de la velocidad de [AI workload] Desarrollo.»

SambaNova también anuncia nuevos productos en su catálogo de modelos, incluidos Llama-2 7B y 70B y Bloom-176B.

El SN40L estará disponible inicialmente como parte de la oferta basada en la nube de la compañía, SambaNova Suite, y más tarde como parte de la oferta DataScale de la compañía para centros de datos locales, con envíos iniciales programados para noviembre.

AI, ACELERADORES DE AI, AI y BIG DATA, AI y MACHINE LEARNING, AI y ML, AI CHIP, AI CHIPS, CHIPS BASADOS EN AI, AI/ML, INFERENCIA AI/ML, HBM, HBM3, LLM, LLMS

[ad_2]

Subscribe to Updates

What's Hot

SambaNova añade HBM al chip de inferencia LLM

Related Posts