[ad_1]
//php echo do_shortcode(‘[responsivevoice_button voice=»US English Male» buttontext=»Listen to Post»]’) ?>
SANTA CLARA, CALIFORNIA – La startup de chips de IA Lemurian Labs ha inventado un nuevo formato de número logarítmico para la aceleración de la IA y está construyendo un chip para usarlo en cargas de trabajo de IA en centros de datos.
“En 2018, estaba entrenando modelos para robótica, y los modelos eran en parte convolución, en parte transformadores y en parte aprendizaje por refuerzo”, dijo al EE Times el director ejecutivo de Lemurian, Jay Dawani. “Entrena esto a 10,000 [Nvidia] Las GPU V100 habrían tardado seis meses… Los modelos han crecido exponencialmente, pero muy pocas personas tienen la potencia informática para siquiera intentarlo. [training]y muchas ideas simplemente se abandonan. Estoy intentando crear para el ingeniero de aprendizaje automático de todos los días que tiene grandes ideas pero carece de potencia informática”.
Las simulaciones del primer chip de Lemurian, que aún no está en el mercado, muestran que la combinación de su nuevo sistema numérico y silicio diseñado a medida superará al H100 de Nvidia, según los últimos resultados de referencia de inferencia MLPerf de H100. La simulación del chip de Lemurian puede procesar 17,54 inferencias por segundo por chip para la versión MLPerf de GPT-J en modo fuera de línea (Nvidia H100 puede procesar 13,07 inferencias por segundo en modo fuera de línea). Dawani dijo que las simulaciones de Lemurian probablemente estén dentro del 10% del rendimiento real del silicio, pero su equipo tiene la intención de exprimir más rendimiento del software en el futuro. Las optimizaciones de software más la escasez podrían aumentar el rendimiento de tres a cinco veces, dijo.
Sistema de números logarítmicos
El secreto de Lemurian se basa en el nuevo formato numérico que ha desarrollado la empresa, al que llama PAL (Logaritmos adaptativos paralelos).
«Como industria, hemos comenzado a centrarnos en la cuantificación de enteros de 8 bits porque es lo más eficiente que tenemos desde la perspectiva del hardware», dijo Dawani. “Ningún desarrollador de software ha dicho jamás: ¡Quiero números enteros de 8 bits!”
Para la inferencia actual de grandes modelos de lenguaje, la precisión de INT8 ha resultado insuficiente y la industria ha avanzado hacia el FP8. Sin embargo, Dawani explicó que la naturaleza de la carga de trabajo de la IA significa que los números a menudo están en el rango subnormal: el rango cercano a cero donde el FP8 puede representar menos números y, por lo tanto, es menos preciso. La brecha de cobertura subnormal del 8PM es la razón por la que muchos esquemas de capacitación requieren tipos de datos de mayor precisión, como BF16 y FP32.
El cofundador de Dawani, Vassil Dimitrov, tuvo la idea de ampliar el sistema numérico logarítmico (LNS) existente, que se ha utilizado en los procesadores de señales digitales (DSP) durante décadas, mediante el uso de múltiples bases y múltiples exponentes.
«Intercalamos la representación de múltiples exponentes para restaurar la precisión y el rango de los números de punto flotante», dijo Dawani. «Esto brinda una mejor cobertura… crea naturalmente un perfil cónico con bandas de muy alta precisión donde importa, en el área subnormal».
Esta banda de precisión se puede ajustar para cubrir el rango requerido, de manera similar a cómo funciona en punto flotante, pero Dawani dijo que permite un control más preciso sobre el sesgo que el punto flotante.
Lemurian desarrolló formatos PAL desde PAL2 a PAL64, con un formato de 14 bits comparable al BF16. PAL8 ofrece una precisión muchas veces mayor en comparación con FP8 y es aproximadamente 1,2 veces más grande que INT8. Dawani supone que otras empresas también adoptarán estos formatos en el futuro.
«Quiero que más gente use esto porque creo que es hora de deshacerse de los números de punto flotante», dijo. “[PAL] se puede aplicar a cualquier aplicación para la que se utilice actualmente punto flotante, desde DSP hasta HPC y entre medias, no solo IA, aunque ese es nuestro enfoque actual. Es más probable que trabajemos con otras empresas que desarrollen silicio para estas aplicaciones para ayudarlas a adoptar nuestro formato”.
Sumador logarítmico
LNS se ha utilizado durante mucho tiempo en cargas de trabajo DSP donde la mayoría de las operaciones implican multiplicación porque simplifica la multiplicación. Multiplicar dos números representados en LNS es la suma de estos dos números de registro. Sin embargo, sumar dos números LNS es más difícil. Los DSP tradicionalmente utilizaban grandes tablas de búsqueda (LUT) para realizar la suma, que, si bien era relativamente ineficiente, era lo suficientemente buena cuando la mayoría de las operaciones requeridas eran multiplicaciones.
Para las cargas de trabajo de IA, la multiplicación de matrices requiere tanto multiplicación como acumulación. Parte del secreto de Lemurian es que ha «resuelto la suma logarítmica en hardware», dijo Dawani.
«Eliminamos por completo los LUT y creamos un sumador puramente logarítmico», dijo. “Tenemos un valor exacto que es mucho más preciso que el valor de punto flotante. Todavía estamos haciendo más optimizaciones para ver si podemos hacerlo más barato y más rápido. Con PPA ya es más del doble de bueno [power, performance, area] como FP8”.
Lemurian ha presentado varias patentes para esta sumadora.
«El mundo DSP es conocido por observar una carga de trabajo y comprender numéricamente lo que está buscando y luego explotarlo y colocarlo en silicio», dijo. «Esto no es diferente de lo que hacemos: en lugar de construir un ASIC que solo hace una cosa, analizamos los números de todo el espacio de la red neuronal y desarrollamos una arquitectura de dominio específico que proporciona el nivel adecuado de flexibilidad».
Pila de software
La implementación eficiente del formato PAL requiere tanto hardware como software.
“Me llevó mucho trabajo pensar en cómo hacerlo. [the hardware] «Es más fácil codificar porque ninguna arquitectura tendrá éxito si no se acelera primero la productividad de los ingenieros», afirmó Dawani. “Preferiría tener uno [terrible] Arquitectura de hardware y una gran pila de software que viceversa”.
Lemurian construyó alrededor del 40% de su compilador antes de siquiera pensar en su arquitectura de hardware, dijo. Hoy en día, la pila de software de Lemurian está operativa y Dawani quiere mantenerla completamente abierta para que los usuarios puedan escribir sus propios núcleos y fusiones.
La pila incluye Paladynn, el cuantificador logarítmico de precisión mixta de Lemurian, que puede asignar cargas de trabajo de punto flotante y enteros a formatos PAL manteniendo la precisión.
«Tomamos muchas de las ideas que surgieron de la búsqueda de arquitecturas neuronales y las aplicamos a la cuantificación porque queremos hacer esa parte más fácil», dijo.
Si bien las redes neuronales convolucionales son relativamente fáciles de cuantificar, Dawani dice que este no es el caso de los transformadores: hay valores atípicos en las funciones de activación que requieren mayor precisión, por lo que los transformadores en general probablemente requerirán enfoques de precisión mixta más complicados. Sin embargo, Dawani dijo que está llevando a cabo varios esfuerzos de investigación que sugieren que no habrá transformadores cuando el silicio lemuriano llegue al mercado.
Las cargas de trabajo futuras de IA podrían seguir el camino trazado por Gemini de Google y otros, implicando un número no determinista de pasos. Esto contradice las suposiciones de la mayoría de las pilas de hardware y software, afirmó.
“Si no sabes a priori «¿Cuántos pasos debe seguir su modelo, cómo lo planifica y cuánta potencia informática necesita para la planificación?», preguntó. «Se necesita algo que sea intrínsecamente más dinámico y que haya influido en gran medida en nuestro pensamiento».
El chip será un acelerador de centro de datos de 300 W con 128 GB HBM3 que ofrecerá 3,5 POPS de potencia informática densa (Sparsity seguirá más adelante). En general, el objetivo de Dawani es construir un chip con mejor rendimiento que el H100 y hacerlo comparable en precio al A100 de la generación anterior de Nvidia. Las aplicaciones de destino incluyen servidores de IA locales (en cualquier sector) y algunas empresas de nube especializadas o de nivel 2 (no hiperescaladores).
El equipo de Lemurian está formado actualmente por 27 empleados en EE. UU. y Canadá y la empresa recientemente recaudó una ronda de financiación inicial de 9 millones de dólares. Dawani tiene como objetivo lanzar el primer chip de Lemurian en el tercer trimestre de 2024, y la primera versión de producción de la pila de software llegará en el segundo trimestre de 2024. Hoy en día, hay disponible un kit de desarrollo virtual para los clientes que quieran “patear los neumáticos”, dijo Dawani.
[ad_2]