Los grandes modelos de lenguaje utilizan un mecanismo sorprendentemente
Los modelos de lenguaje grandes, como los impulsados por chatbots de inteligencia artificial populares como ChatGPT, son increíblemente complejos. Aunque estos modelos se utilizan como herramientas en muchas áreas, como la atención al cliente, la generación de códigos y la traducción de idiomas, los científicos aún no comprenden completamente cómo funcionan.
Para comprender mejor lo que sucede bajo el capó, investigadores del MIT y de otros lugares examinaron los mecanismos que funcionan cuando estos modelos masivos de aprendizaje automático recuperan el conocimiento almacenado.
Encontraron un resultado sorprendente: los grandes modelos de lenguaje (LLM) suelen utilizar una función lineal muy simple para recuperar y decodificar datos almacenados. Además, el modelo utiliza la misma función de decodificación para tipos similares de hechos. Las funciones lineales, ecuaciones con solo dos variables y sin exponentes, capturan la relación directa y recta entre dos variables.
Los investigadores demostraron que al identificar funciones lineales para diferentes hechos, pueden examinar el modelo para ver qué sabe sobre nuevos temas y en qué parte del modelo se almacena ese conocimiento.
Utilizando una técnica que desarrollaron para estimar estas funciones simples, los investigadores descubrieron que incluso cuando un modelo respondía incorrectamente a una pregunta, a menudo retenía la información correcta. En el futuro, los científicos podrían utilizar este enfoque para encontrar y corregir falsedades dentro del modelo, lo que podría reducir la tendencia de un modelo a dar a veces respuestas incorrectas o sin sentido.
“Aunque estos modelos son realmente complicados, funciones no lineales que se entrenan con una gran cantidad de datos y son muy difíciles de entender, a veces funcionan en ellos mecanismos realmente simples. Este es un ejemplo de ello”, dice Evan Hernández, estudiante de posgrado en ingeniería eléctrica e informática (EECS) y coautor principal de un artículo que detalla estos resultados.
Hernández escribió el artículo con el coautor principal Arnab Sharma, estudiante de doctorado en informática en la Universidad Northeastern; su asesor Jacob Andreas, profesor asociado de EECS y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL); el autor principal David Bau, profesor asistente de informática en Northeastern; y otros en el MIT, la Universidad de Harvard y el Instituto Israelí de Tecnología. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.
encontrar hechos
La mayoría de los grandes modelos de lenguaje, también llamados modelos transformadores, son redes neuronales. Las redes neuronales se basan libremente en el cerebro humano y contienen miles de millones de nodos o neuronas interconectados, agrupados en muchas capas que codifican y procesan datos.
Gran parte del conocimiento almacenado en un transformador se puede representar como relaciones que conectan sujetos y objetos. Por ejemplo, “Miles Davis toca la trompeta” es una relación que conecta al sujeto Miles Davis con la trompeta objeto.
A medida que un Transformer adquiere más conocimientos, almacena datos adicionales sobre un tema en particular en múltiples niveles. Cuando un usuario pregunta sobre este tema, el modelo debe decodificar el hecho más relevante para responder a la consulta.
Si alguien solicita un transformador diciendo: “Miles Davis interpreta eso. . .” El modelo debería responder “trompeta”, no “Illinois” (el estado donde nació Miles Davis).
“En algún lugar del cómputo de la red debe haber un mecanismo que busque el hecho de que Miles Davis está tocando la trompeta y luego extraiga esa información y ayude a generar la siguiente palabra. Queríamos entender cuál era este mecanismo”, dice Hernández.
Los investigadores realizaron una serie de experimentos para estudiar los LLM y descubrieron que, aunque los modelos son extremadamente complejos, decodifican información relacional utilizando una función lineal simple. Cada función es específica del tipo de hecho recuperado.
Por ejemplo, el transformador usaría una función de decodificación cada vez que quisiera generar el instrumento que toca una persona, y una función diferente cada vez que quisiera generar el estado en el que nació una persona.
Los investigadores desarrollaron un método para estimar estas funciones simples y luego calcularon funciones para 47 relaciones diferentes, como "capital de un país" y "cantante principal de una banda".
Aunque podría haber un número infinito de relaciones posibles, los investigadores optaron por estudiar este subconjunto específico porque son representativos de los tipos de hechos que se pueden escribir de esta manera.
Probaron cada característica cambiando el tema para ver si podía restaurar la información correcta del objeto. Por ejemplo, la función Capital de un país debería recuperar Oslo si el tema es Noruega y Londres si el tema es Inglaterra.
Functions recuperó la información correcta más del 60 por ciento de las veces, lo que demuestra que parte de la información en un transformador se codifica y recupera de esta manera.
“Pero no todo está codificado linealmente. Para algunos hechos, no podemos encontrar funciones lineales para ellos, aunque el modelo los conoce y predice el texto que coincide con esos hechos. Esto sugiere que el modelo está haciendo algo más complicado para almacenar esta información”, afirma.
Visualizando el conocimiento de un modelo.
También utilizaron las características para determinar lo que un modelo cree que es cierto sobre diversos temas.
En un experimento, comenzaron con el mensaje "Bill Bradley era" y utilizaron las funciones de decodificación para "practica deportes" y "asistió a la universidad" para ver si el modelo sabía que el senador Bradley era un jugador de baloncesto que asistió a Princeton.
"Podemos demostrar que incluso si el modelo elige centrarse en otra información al producir texto, todavía codifica toda esa información", dice Hernández.
Utilizaron esta técnica de sondeo para crear lo que llaman una "lente de atributos", una cuadrícula que visualiza dónde se almacena información específica sobre una relación particular en las muchas capas del transformador.
Las lentes de atributos se pueden generar automáticamente y proporcionar un método simplificado para que los investigadores aprendan más sobre un modelo. Esta herramienta de visualización podría permitir a los científicos e ingenieros corregir el conocimiento almacenado y evitar que un chatbot de IA proporcione información incorrecta.
En el futuro, Hernández y sus colegas quieren comprender mejor qué sucede cuando los datos no se almacenan de forma lineal. También desea realizar experimentos con modelos más grandes y estudiar la precisión de las funciones de decodificación lineal.
"Este es un trabajo apasionante que descubre una parte faltante de nuestra comprensión de cómo los grandes modelos lingüísticos recuperan conocimiento fáctico durante la inferencia". Trabajos anteriores han demostrado que los LLM crean representaciones ricas en información de temas particulares de los cuales se extraen atributos específicos durante la inferencia. "Este trabajo muestra que el complejo cálculo no lineal de los LLM para la extracción de atributos se puede aproximar bien con una función lineal simple", dice Mor Geva Pipek, profesor asistente de la Facultad de Ciencias de la Computación de la Universidad de Tel Aviv, que no participó en este trabajo. .
Esta investigación fue apoyada en parte por Open Philanthropy, la Fundación Científica Israelí y una beca para profesores de carrera temprana de la Fundación Azrieli.
Deja una respuesta