[ad_1]
Cuando una conversación entre humanos e IA implica muchas rondas de diálogo continuo, los potentes modelos de aprendizaje automático en lenguaje grande que impulsan los chatbots como ChatGPT a veces fallan, lo que lleva a una rápida disminución en el rendimiento del bot.
Un equipo de investigadores del MIT y de otros lugares identificó una causa sorprendente de este problema y desarrolló una solución simple que permite a un chatbot mantener una conversación ininterrumpida sin fallar ni disminuir la velocidad.
Su método implica optimizar la caché de valores-clave (que es como un almacén conversacional) que forma el núcleo de muchos modelos de lenguaje grandes. Algunos métodos eliminan los primeros elementos de datos cuando este caché necesita almacenar más información de la que puede contener. Esto puede llevar al fracaso del modelo.
Al garantizar que se recuerden estos primeros puntos de datos, el método de los investigadores permite que un chatbot continúe chateando sin importar cuánto dure la conversación.
El método, llamado StreamingLLM, permite que un modelo siga siendo eficiente incluso cuando una conversación abarca más de 4 millones de palabras. En comparación con otro método que evita fallas al recalcular constantemente partes de conversaciones pasadas, StreamingLLM fue más de 22 veces más rápido.
Esto podría permitir que un chatbot tenga largas conversaciones a lo largo de la jornada laboral sin tener que reiniciarse constantemente, lo que permitiría asistentes de IA eficientes para tareas como redacción, edición o generación de código.
“Con este método ahora podemos ofrecer estos grandes modelos de lenguaje de forma permanente. Al crear un chatbot con el que podamos chatear en cualquier momento y que siempre pueda respondernos en función de nuestras conversaciones recientes, podríamos utilizar estos chatbots en algunas aplicaciones nuevas”, afirma Guangxuan Xiao, estudiante de doctorado en ingeniería eléctrica e informática ( EECS). y autor principal de un artículo sobre StreamingLLM.
Los coautores de Xiao incluyen a su asesor Song Han, profesor asociado de EECS, miembro del MIT-IBM Watson AI Lab y científico distinguido de NVIDIA; así como Yuandong Tian, científico investigador de Meta AI; Beidi Chen, profesora asistente de la Universidad Carnegie Mellon; y el autor principal Mike Lewis, científico investigador de Meta AI. El trabajo será presentado en la Conferencia Internacional sobre Representaciones del Aprendizaje.
Un fenómeno misterioso
Los modelos de lenguaje grandes codifican datos, como palabras en una consulta de usuario, en representaciones llamadas tokens. Muchos modelos utilizan algo llamado mecanismo de atención, que utiliza estos tokens para generar texto nuevo.
Por lo general, un chatbot de IA escribe texto nuevo basándose en el texto que acaba de ver y, por lo tanto, almacena los tokens actuales en la memoria, llamada caché KV, para su uso posterior. El mecanismo de atención crea una cuadrícula que incluye todos los tokens en el caché, un «mapa de atención» que mapea qué tan fuertemente se relaciona cada token o palabra con todos los demás tokens.
Comprender estas relaciones es una característica que permite que los modelos de lenguaje grandes generen texto similar al humano.
Sin embargo, si la memoria caché se vuelve muy grande, el mapa de atención puede volverse aún más grande, lo que ralentiza el cálculo.
Además, si la codificación de contenido requiere más tokens de los que la caché puede contener, el rendimiento del modelo disminuirá. Por ejemplo, un modelo popular puede almacenar 4.096 tokens, pero en un artículo científico son unos 10.000 tokens.
Para solucionar estos problemas, los investigadores utilizan un «caché deslizante», que extrae los tokens más antiguos para agregar tokens nuevos. Sin embargo, el rendimiento del modelo a menudo cae tan pronto como se elimina el primer token, lo que hace que la calidad de las palabras recién generadas disminuya rápidamente.
En este nuevo artículo, los investigadores descubrieron que el modelo mantiene el rendimiento incluso cuando el primer token permanece en la caché push, incluso cuando se excede el tamaño de la caché.
Pero eso no tenía ningún sentido. La primera palabra de una novela probablemente no tenga nada que ver con la última. ¿Por qué la primera palabra debería ser tan importante para que el modelo genere la palabra más nueva?
En su nuevo trabajo, los investigadores también descubrieron la causa de este fenómeno.
Caídas de atención
Algunos modelos utilizan una operación softmax en su mecanismo de atención que asigna a cada token una puntuación que indica cómo se relaciona con los demás tokens. Para la operación softmax, todos los valores de atención deben sumar 1. Dado que la mayoría de los tokens no están fuertemente vinculados entre sí, sus puntuaciones de atención son muy bajas. El modelo almacena todos los valores de atención restantes en el primer token.
Los investigadores llaman a este primer token un «sumidero de atención».
«Necesitamos un receptor de atención, y el modelo elige usar el primer token como receptor de atención porque es globalmente visible; todos los demás tokens pueden verlo». Descubrimos que siempre necesitamos mantener el receptor de atención en caché para poder para mantener la dinámica del modelo”, dice Han.
Al crear StreamingLLM, los investigadores descubrieron que cuatro tokens de sumidero de atención al comienzo del caché deslizante daban como resultado un rendimiento óptimo.
También descubrieron que la codificación posicional de cada token debe permanecer igual incluso cuando se agregan nuevos tokens y se eliminan otros. Si el token 5 se cae, el token 6 debe permanecer codificado como 6, incluso si ahora es el quinto token en el caché.
Al combinar estas dos ideas, permitieron a StreamingLLM mantener una conversación continua y superar a un método de recálculo popular.
Por ejemplo, si el caché contiene 256 tokens, el método de recálculo tarda 63 milisegundos en decodificar un token nuevo, mientras que StreamingLLM tarda 31 milisegundos. Sin embargo, cuando el tamaño de la caché aumenta a 4096 tokens, el recálculo para un nuevo token demora 1411 milisegundos, mientras que StreamingLLM solo demora 65 milisegundos.
«El enfoque innovador de StreamingLLM, centrado en el mecanismo de sumidero de atención, garantiza un uso y un rendimiento estables de la memoria incluso cuando se procesan textos de hasta 4 millones de tokens de longitud», afirma Yang You, un joven profesor de informática de la Universidad Nacional de Singapur, que no estaba involucrados en este trabajo. “Esta habilidad no sólo es impresionante; Es transformador y permite la aplicación de StreamingLLM en una amplia gama de aplicaciones de IA. El poder y la versatilidad de StreamingLLM la convierten en una tecnología prometedora preparada para revolucionar la forma en que abordamos las aplicaciones de generación impulsadas por IA”.
Tianqi Chen, profesor asistente en los departamentos de aprendizaje automático y ciencias de la computación de la Universidad Carnegie Mellon, que tampoco participó en esta investigación, estuvo de acuerdo y dijo: «La transmisión de LLM permite extender sin problemas la duración de la conversación de modelos de lenguaje grandes». , para permitir la implementación de modelos Mistral en iPhones con gran éxito”.
Los investigadores también examinaron el uso de receptores de atención durante el entrenamiento del modelo anteponiendo múltiples tokens de marcador de posición en todos los ejemplos de entrenamiento.
Descubrieron que el entrenamiento con receptores de atención permitía que un modelo mantuviera el rendimiento con solo un receptor de atención en su caché, en lugar de los cuatro que normalmente se requieren para estabilizar el rendimiento de un modelo previamente entrenado.
Pero si bien StreamingLLM permite que un modelo tenga una conversación continua, el modelo no puede recordar palabras que no estén almacenadas en el caché. En el futuro, los investigadores quieren abordar esta limitación explorando métodos para recuperar tokens remotos o permitir que el modelo recuerde conversaciones anteriores.
StreamingLLM se ha integrado en la gran biblioteca de optimización de modelos de lenguaje de NVIDIA, TensorRT-LLM.
Este trabajo está financiado en parte por el MIT-IBM Watson AI Lab, el MIT Science Hub y la Fundación Nacional de Ciencias de EE. UU.
[ad_2]