Nvidia muestra hoppers en los últimos puntos de referencia de MLPerf

[ad_1]

//php echo do_shortcode(‘[responsivevoice_button voice=»US English Male» buttontext=»Listen to Post»]’) ?>

Nvidia utiliza la última ronda de MLPerf Puntos de inferencia para presentar puntos de referencia públicos para su última GPU insignia, la H100. H100 es el primer lapso instalarse en las instalaciones de la empresa Arquitectura de tolva Con su motor transformador especialmente diseñado. H100 se ha superado a sí mismo El buque insignia actual de Nvidia, el A100, en 1.5-2× acoss el tablero, a excepción de los puntajes BERT whAquí estaba la ventaja más pronunciado con hasta 4.5× elevar.

El gráfico de Nvidia muestra el rendimiento del nuevo H100 en comparación con parte de la generación anterior de la empresa (el A100), así como con el hardware de la competencia. (Haga clic en la imagen para ampliar) (Fuente: Nvidia)

Con el triple de la potencia bruta del A100, ¿por qué algunos de los resultados de referencia del H100 son menos del doble?

«Si bien los números FLOPS y TOPS son un primer conjunto útil de guías, no necesariamente predicen el rendimiento de la aplicación», dijo Dave Salvator, director de inferencia de IA, evaluación comparativa y nube de Nvidia, en una entrevista con EE Times. «Hay otros factores [including] el tipo de arquitectura de la red que está ejecutando. Algunas redes están más limitadas a E/S, algunas redes están más limitadas a la computación… varía según la red”.

Salvator agregó que hay espacio para que los resultados de H100 mejoren a medida que madura la pila de software.

«Esta es la primera aparición de Hopper… queda gasolina en el tanque», dijo.

Salvator señaló que desde la primera demostración de MLPerf de este acelerador en julio de 2020, los resultados del A100 han mejorado 6 veces [Nvidia’s software portal] los desarrolladores pueden usar.”

El resultado destacado del H100 fue en BERT-Large, donde se desempeñó hasta 4,5 veces mejor que el A100. Las nuevas características del H100 incluyen un motor de transformación de hardware y software que gestiona la precisión de los cálculos durante el entrenamiento para obtener el mayor rendimiento manteniendo la precisión. Si bien esta funcionalidad es más relevante para el entrenamiento, se aplica a la inferencia, dijo Salvator.

“Es principalmente la precisión del FP8 lo que entra en juego aquí, pero también algunos otros aspectos arquitectónicos del H100. El hecho de que tengamos más potencia de procesamiento juega un papel, más procesadores de transmisión, más núcleos tensoriales y más potencia de procesamiento», dijo. H100 también duplicó aproximadamente el ancho de banda de su memoria en comparación con A100.

Algunas partes del benchmark BERT 99.9 se ejecutaron en FP16 y otras en FP8— El ingrediente secreto aquí es saber cuándo saltar a una mayor precisión para mantener la precisión, que es parte de lo que hace el motor Transformer.

Nvidia también mostró una mejora del 50 % en la eficiencia energética de su SoC Orin edge, que Salvator atribuyó al trabajo reciente para encontrar un punto de funcionamiento óptimo de frecuencia y voltaje (MaxQ).

Mejora de la eficiencia energética de Orin (las barras más altas son mejores) en comparación con la última ronda de puntuación. (Haga clic en la imagen para ampliar) (Fuente: Nvidia)

Los puntajes de referencia para los sistemas Grace CPU, Grace Hoppers y las mediciones de rendimiento para H100 deberían estar disponibles una vez que los productos se lancen en la primera mitad del próximo año, dijo Salvator.

Qualcomm

El mayor retador de Nvidia, Qualcomm, se centró en la eficiencia energética en su acelerador Cloud AI 100. Qualcomm ejecuta el mismo chip en diferentes sobres de rendimiento para casos de uso de centros de datos y perimetrales.

Qualcomm y sus socios, incluidos Dell, HPE, Lenovo, Inventec y Thundercomm, presentaron más de 200 resultados de Cloud AI 100. También se evaluaron comparativamente tres nuevas plataformas de borde basadas en CPU Snapdragon con Cloud AI 100, incluidos los sistemas Foxconn Gloria.

Qualcomm ingresó al sistema más grande (18 aceleradores) en la categoría de división de centro de datos cerrado disponible y se llevó la corona por el mejor rendimiento de servidor y fuera de línea de ResNet 50. Sin embargo, las puntuaciones 8x Cloud AI 100 fueron superadas fácilmente por el sistema 8x A100 PCIe de Nvidia. (Nvidia H100 está en la categoría «Vista previa» ya que aún no está disponible comercialmente).

Qualcomm también reclamó la mejor eficiencia energética en todos los ámbitos en sistemas de borde cerrado y sistemas de centros de datos cerrados.

Cloud AI 100 de Qualcomm, que funciona con límites de potencia de TDP de 75 W o menos, se desempeñó bien en eficiencia energética para dispositivos periféricos (haga clic en la imagen para ampliar) (Fuente: Qualcomm)

Qualcomm también obtuvo una victoria en eficiencia energética en la categoría de centro de datos cerrado, con Cloud AI 100 nuevamente limitado a 75 W TDP (haga clic en la imagen para ampliar) (Fuente: Qualcomm)

biren

Chino Inicio de GPU Biren ofreció su primer conjunto de puntajes de MLPerf desde que salió del sigilo el mes pasado.

La startup china, junto con su plataforma de desarrollo de software BirenSupa, presentó puntos para su acelerador de chip único BR104 en factor de forma PCIe. Tanto para ResNet-50 como para BERT 99.9, el sistema acelerador Biren 8 ofreció un rendimiento similar al DGX-A100 de Nvidia en modo servidor, donde existe una limitación de latencia, pero superó significativamente al DGX-A100 de Nvidia en modo fuera de línea, que es una medida de rendimiento

BR100 de Biren—que tiene un par de los mismos chiplets usados individualmente en el BR104—no fue calificado.

El fabricante chino de servidores Inspur también ha presentado resultados para un sistema estándar con tarjetas PCIe 4x BR104.

Sapeón

Otra incorporación reciente fue Sapeon, una escisión del gigante coreano de telecomunicaciones SK Telecom. Antes de la escisión, Sapeon había estado trabajando en su aceleradora desde 2017; El X220, un chip de segunda generación, está en el mercado desde 2020. La compañía dijo que su chip está integrado en parlantes inteligentes y sistemas de cámaras de seguridad. Reclamó la victoria sobre el A2 de Nvidia, parte de la generación Ampere destinada a servidores de nivel de entrada en 5G y aplicaciones industriales.

Sapeon mostró resultados para la X220-compact, una tarjeta PCIe de un solo chip que consume 65 W, y la X220-enterprise, que tiene dos chips X220 y consume 135 W. La compañía señaló que la X220-compact superó a Nvidia A2 en 2,3 veces en términos de rendimiento, pero también fue 2,2 veces más eficiente energéticamente según el consumo máximo de energía. Esto es a pesar de la económica tecnología de proceso de 28 nm de la X220 (Nvidia A2 se basa en 7 nm).

Sapeon está planeando un chip de tercera generación, el X330, para la segunda mitad de 2023, que según la compañía ofrecerá una mayor precisión y manejará cargas tanto de inferencia como de entrenamiento.

inteligencia

Intel ha presentado puntajes de vista previa por su retraso CPU de zafiro Rapids. Esta CPU de centro de datos Xeon de cuatro chiplets es la primera en recibir Advanced Matrix Extensions (AMX) de Intel, que según Intel permite 8 veces más operaciones por reloj en comparación con las generaciones anteriores.

Sapphire Rapids también ofrece más potencia de procesamiento, más memoria y más ancho de banda de memoria que las generaciones anteriores. Según Intel, las puntuaciones de Sapphire Rapids oscilaron entre 3,9 y 4,7 veces las CPU de la generación anterior para el modo fuera de línea y entre 3,7 y 7,8 veces para el modo servidor.

Otros resultados destacados

La empresa china Moffett presentó puntos en la División Abierta por su plataforma, que incluye sus chips Antoum, su pila de software y algoritmos dispersos patentados. La empresa todavía tiene el chip S4 (75W) disponible en la categoría de vista previa con el S10 y S30 (250W). La arquitectura Antoum utiliza las propias unidades de procesamiento dispersas de Moffett para la convolución dispersa nativa junto con las unidades de procesamiento vectorial que aumentan la flexibilidad de la carga de trabajo.

Startup Neural Magic ha desarrollado un motor de inferencia con capacidad de dispersión para CPU. Combinado con el marco de compresión de Neural Magic, que se encarga de la limpieza y la cuantificación, el motor de inferencia permite que las redes neuronales se ejecuten de manera eficiente en las CPU al cambiar el orden de ejecución, lo que permite que la información se mantenga en la memoria caché de la CPU (sin tener que acceder al almacenamiento externo) . ). Los resultados de la empresa se presentaron en CPU Intel Xeon 8380.

La startup de software israelí Deci presentó los resultados de su versión de BERT en la división abierta que se ejecuta en CPU AMD Epyc. El software de Deci utiliza la búsqueda de arquitectura neuronal para adaptar la arquitectura de la red neuronal a cada CPU, a menudo reduciendo su tamaño en el proceso. La aceleración osciló entre 6,33 y 6,46 veces el valor inicial.

La versión BERT de Deci podría ejecutarse mucho más rápido que la versión base en el mismo hardware (haga clic en la imagen para ampliar) (Fuente: Deci)

[ad_2]

Subscribe to Updates

What's Hot