Kinara apunta a su pequeño procesador Ara 2 para grandes cargas de trabajo de IA de vanguardia generativa

[ad_1]

Las aplicaciones de IA generativa como ChatGPT han ganado importancia en los últimos 12 meses. Estas cargas de trabajo han demostrado ser muy costosas y exigentes, por lo que, naturalmente, se han limitado en gran medida a la computación en la nube y los centros de datos. Sin embargo, la industria ahora está viendo un impulso para llevar estas cargas de trabajo de IA generativa al límite.

Para abordar este mercado en crecimiento, Kinara lanzó hoy su nuevo procesador Ara-2, diseñado específicamente para aplicaciones de IA generativa en el borde. Todo sobre circuitos Tuve la oportunidad de hablar con Ravi Annavajjhala, CEO de Kinara, y conocer más de primera mano sobre el nuevo procesador.

En un pequeño paquete EHS FCBGA de 17 mm × 17 mm, el chip Ara-2 está diseñado alrededor de 8 núcleos neuronales de segunda generación.

Conjunto de instrucciones optimizadas neuronalmente

El procesador de IA generativa Kinara Ara-2 es un chip de última generación diseñado para aplicaciones de IA de vanguardia, que enfatiza la eficiencia, el rendimiento y la versatilidad. El chip se ofrece en un pequeño paquete EHS FCBGA de 17 mm × 17 mm y está diseñado para 8 núcleos neuronales de segunda generación. Estos núcleos son máquinas informáticas totalmente programables con un conjunto de instrucciones optimizadas neuronalmente. Una consideración importante en el diseño de estos chips es la eficiencia energética.

Por lo tanto, Kinara ha agregado una nueva característica al Ara-2 que admite nuevos tipos de datos, incluidos Entero 4 Y MSFP16. Con soporte para estos nuevos tipos de datos, Ara-2 también brinda soporte para redes TensorFlow Lite y PyTorch precuantizadas, ampliando la aplicabilidad del chip a varios modelos de IA y permitiendo un procesamiento de datos más flexible y eficiente.

Un diagrama de bloques a nivel de sistema del Ara-2

Además, el Ara-2 recibe una importante ampliación de la capacidad de memoria con hasta 16 GB LPDDR4/DDR4X por chip. Esto tiene un gran impacto en el procesamiento de bordes. «Con 16 GB de DRAM LPDDR4, un solo Ara-2 puede admitir hasta 30 mil millones de parámetros en int4, lo que significa que podría ejecutar un modelo de lenguaje grande completo en el borde», afirma Annavajjhala.

El chip también ofrece ventajas respecto a su predecesor en términos de rendimiento. El nuevo chip es capaz de producir una imagen de difusión estable en aproximadamente 10 segundos por imagen y ofrece un rendimiento de IA generativa que es de 5 a 8 veces mejor que el Ara-1. En los modelos Vision, el Ara-2 es capaz de ejecutar Resnet50 con una latencia de 2 ms.

Comparación con la GPU Nvidia

En comparación, el Ara-2 pretende posicionarse como una alternativa más rentable y energéticamente eficiente a las soluciones tradicionales como una GPU Nvidia T4.

Si bien es posible que el Ara-2 no pueda competir con la familia Nvidia T4 en términos de rendimiento puro, afirma ganar en términos de rendimiento por dólar y rendimiento por vatio. El procesador Ara-1 de Kinara ya lo utilizan muchos de los principales minoristas estadounidenses.

«La razón por la que muchos minoristas importantes de EE. UU. nos eligen es porque lideramos la industria en costo total de propiedad (TCO) y también tenemos la mejor eficiencia informática en términos de rendimiento por dólar», afirma Annavajjhal.

La Ara-1 comparada con la Nvidia T4 en términos de rendimiento por dólar

Parte de esta eficiencia se debe a dos proezas arquitectónicas clave: motores de flujo de datos dedicados y un compilador de IA exclusivo.

Los motores de flujo de datos dedicados permiten la partición tensorial definida por software y el enrutamiento optimizado para el flujo de datos. Esto permite un flujo de datos más eficiente para cualquier tipo de arquitectura de red, lo que resulta en un menor consumo de energía y una menor latencia.

El compilador, por otro lado, determina automáticamente el flujo de cálculo y datos más eficiente de cada diagrama de IA. Esto crea el plan de ejecución óptimo para un modelo determinado y garantiza que el rendimiento y el rendimiento estén optimizados.

Al explicar la arquitectura, Annavajjhala dice: «Todo está controlado por software». «Los motores de datos son capaces de tomar cualquier partición tensorial de n dimensiones y pasarla a las unidades de cómputo de una manera muy flexible», afirma. «Esto también significa que el compilador se convierte en una parte muy importante de la solución, ya que hay literalmente miles de maneras de mapear cualquier problema neuronal en el chip».

“Nuestro compilador realiza una pasada de optimización, evalúa todo el espacio de búsqueda y encuentra el método óptimo para dividir cada subcálculo en el gráfico neuronal y los asigna a las unidades computacionales. Determina cómo deben ser las transferencias de datos y crea un cronograma completo al tiempo que garantiza que se maximice la reutilización de datos y se minimice la necesidad de movimiento de datos”.

Esto permite a Kinara garantizar que su hardware ejecute modelos de IA con el mayor rendimiento y eficiencia energética posibles.

Llevando la IA generativa al límite

A medida que la IA generativa se vuelve más popular, su crecimiento puede verse obstaculizado por el costo excesivo de pagar por las horas del servidor. Kinara cree que el futuro de la IA generativa requiere una transición hacia el borde. Con su procesador Ara 2 (actualmente en muestreo), la compañía espera poder acelerar esta transición al borde y ofrecer a los usuarios una IA generativa asequible que no comprometa el costo.

Todas las imágenes utilizadas son cortesía de Kinara.

[ad_2]

Subscribe to Updates

What's Hot