[ad_1]
//php echo do_shortcode(‘[responsivevoice_button voice=»US English Male» buttontext=»Listen to Post»]’) ?>
SANTA CLARA, CALIFORNIA – Nvidia ha duplicado el rendimiento de inferencia del modelo de lenguaje grande (LLM) en sus GPU H100, A100 y L4 con una nueva biblioteca de software de código abierto llamada TensorRT-LLM.
Como muestran los resultados de las pruebas comparativas, al mejorar de una ronda a otra con el mismo hardware, el software suele ser tan importante como el hardware cuando se trata de obtener el mejor rendimiento posible de los chips de IA especializados.
«Gran parte de nuestro trabajo es una combinación de hardware y software, y hoy Nvidia tiene más ingenieros de software que ingenieros de hardware», dijo a EE Times Ian Buck, vicepresidente y director general del negocio de computación HPC e hiperescala de Nvidia. “Esto es parte de una decisión que se remonta al CUDA original y a la motivación de entregar no sólo un chip con un conjunto de instrucciones, sino una pila completa para llegar a los desarrolladores donde estén.
«Esto presenta una oportunidad para la innovación en todos los niveles: cambiar la arquitectura del hardware, cambiar el conjunto de instrucciones, cambiar los compiladores, cambiar los controladores, cambiar las herramientas, las bibliotecas, todo para que podamos hacer avanzar toda la plataforma», dijo. «Esto se ha demostrado muchas veces durante los últimos 20 años de computación acelerada, y esto también se aplica a la inferencia de IA».
TensorRT-LLM es una evolución de la biblioteca de software de aprendizaje profundo original de Nvidia con optimizaciones para la inferencia LLM. Está diseñado para admitir H100, pero también se puede aplicar a implementaciones A100 y L4.
![Ian Buck](https://www.eetimes.com/wp-content/uploads/Ian_Buck_headshot-sq-e1697462641429.jpg?w=278&is-pending-load=1#038;resize=278%2C300)
“[In TensorRT-LLM, we] «Nos aseguramos de tener las mejores optimizaciones posibles del núcleo tensor para modelos de lenguaje grandes», dijo Buck. «Esto permite a los usuarios tomar cualquier modelo de lenguaje grande y pasarlo a través de TensorRT-LLM para aprovechar el motor Transformer de Hopper, que habilita las capacidades informáticas FP8 de Hopper… pero sin ninguna pérdida de precisión en el flujo de trabajo de producción».
La arquitectura Hopper de Nvidia introdujo Transformer Engine, una biblioteca de software que gestiona de forma inteligente la precisión de las cargas de trabajo de entrenamiento e inferencia para lograr un rendimiento óptimo. El motor Transformer requirió un conocimiento profundo de matemáticas, estadísticas y datos, así como mucho trabajo en el compilador de Nvidia, dijo Buck. Ayuda a mantener la precisión predictiva de los modelos una vez que entran en producción, lo que puede resultar un desafío.
«Puedes tomar fácilmente un cálculo de 32 o 16 bits e introducirlo en una FPGA, pero es probable que obtengas la respuesta incorrecta porque no tendrá la precisión de producción que deseas», dijo Buck. «Hacer esto con pensamiento y cuidado, manteniendo la escala y el sesgo para mantener los cálculos en el rango de solo 8 bits en algunos casos -y manteniendo FP16 para algunas partes del modelo- es algo en lo que Nvidia ha estado trabajando durante algún tiempo».
TensorRT-LLM también incluye una nueva función llamada In-Flight Batching.
Buck explicó que las cargas de trabajo de LLM, incluso las cargas de trabajo de inferencia para el mismo modelo, son diferentes. Los LLM comenzaron con casos de uso más simples, como el análisis de sentimientos, pero los LLM de hoy pueden responder preguntas, leer y resumir textos largos o generar textos largos o cortos para correos electrónicos, artículos, presentaciones y más. Los centros de datos que ofrecen inferencia LLM también pueden ofrecer muchos servicios diferentes a muchos usuarios diferentes.
En comparación con las cargas de trabajo de IA existentes, que son más similares en tamaño y, por lo tanto, fáciles de apilar, Buck dice que las solicitudes de LLM que llegan para el mismo modelo pueden variar en tamaño en órdenes de magnitud, comenzando con aquellas que tardan milisegundos en completarse para aquellos que necesitan una pocos segundos. Los modelos también se pueden apilar, lo que complica las cosas.
«Nuestros enfoques de procesamiento por lotes estándar siempre esperarían a que se completara la consulta más larga», dijo. «Todas las consultas de imágenes tomaron aproximadamente la misma cantidad de tiempo; eso no fue un problema por razones de eficiencia, y las consultas se podían completar, por lo que no fue un gran problema».
![Nvidia TensorRT-LLM](https://www.eetimes.com/wp-content/uploads/TensorRT-LLM.jpg?w=300&is-pending-load=1#038;resize=300%2C154)
Con la nueva función de procesamiento por lotes en vuelo, las consultas se pueden retirar una vez que se completan y el software puede insertar otra consulta, todo mientras aún hay una consulta más larga en progreso. Esto ayuda a mejorar la utilización de GPU para LLM con diferentes longitudes de consulta.
«Para ser honesto, el resultado me sorprendió incluso a mí», dijo Buck. “Duplicó el desempeño de Hopper. Hopper es una GPU tan potente que puede procesar muchas consultas en paralelo en la misma GPU, pero sin la función de procesamiento por lotes en vuelo, esperaría más tiempo en diferentes consultas y no se utilizaría por completo”.
TensorRT-LLM es de código abierto, junto con todo el trabajo LLM de Nvidia, incluidos muchos modelos LLM como GPT, Bloom y Falcon, optimizados con técnicas como la fusión de kernel, atención más rápida, atención multicabezal, etc. Los kernels para todas estas operaciones han sido de código abierto como parte de TensorRT-LLM.
«Esto ofrece a los investigadores interesados en el rendimiento un punto de partida para hacerlo aún más rápido», dijo Buck. «Nuestros clientes y usuarios aprecian tener algo que puedan optimizar aún más para su caso de uso cuando tienen una idea específica que desean implementar».
Las innovaciones provienen del mundo académico, pero también de empresas como Meta, Microsoft y Google. Y aunque Nvidia está trabajando con ellos para optimizar la inferencia, y aunque las optimizaciones pueden convertirse en un artículo académico, «no había ningún buen lugar en el mundo para obtener esas optimizaciones y el trabajo que hicieron los ingenieros de Nvidia». compartir en un lugar que podría ayudar al resto del mundo», dijo Buck.
Buck agregó que la mejora del rendimiento de TensorRT-LLM debería ser evidente en la próxima ronda de evaluaciones de inferencia de MLPerf, que se realizará la próxima primavera.
[ad_2]