[ad_1]
Sócrates dijo una vez: «No es el tamaño de una cosa, sino la calidad lo que realmente cuenta.» Porque el verdadero valor reside en la naturaleza de la sustancia, no en su volumen.
¿El tamaño siempre importa para los modelos de lenguaje grandes (LLM)? En un panorama tecnológico centrado en los LLM, un equipo de investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT cree que no se deben pasar por alto los modelos más pequeños, particularmente en los productos de comprensión del lenguaje natural construidos en la industria que están muy extendidos.
Para hacer esto, los investigadores desarrollaron un enfoque para los problemas de larga data de ineficiencia y privacidad asociados con grandes modelos de IA basados en texto: un modelo consciente de la lógica que supera a sus contrapartes 500 veces más grandes en algunas tareas de comprensión del lenguaje sin asistencia humana. generó anotaciones manteniendo la privacidad y la solidez en un alto rendimiento.
Los LLM, que han demostrado algunas habilidades prometedoras en lenguaje, arte y generación de códigos, requieren mucha computación y sus requisitos de datos pueden provocar violaciones de datos cuando se utilizan interfaces de programación de aplicaciones para cargar datos. Históricamente, los modelos más pequeños han tenido un rendimiento inferior al de sus homólogos más grandes, especialmente cuando se trata de tareas multitarea y poco supervisadas.
Entonces, ¿qué ayuda a que estos modelos más pequeños parezcan tan poderosos? Algo llamado «inferencia textual» que ayuda a estos modelos a comprender una variedad de tareas lingüísticas. Si una proposición (la premisa) es verdadera, es probable que la otra proposición (la hipótesis) también lo sea. Por ejemplo, si la premisa es «Todos los gatos tienen cola», entonces estaría implícita la hipótesis «Un gato atigrado tiene cola». Este concepto se utiliza para entrenar un «modelo de vinculación» que, según ha demostrado la investigación anterior del equipo, es menos sesgado que otros modelos de lenguaje. Luego crearon «indicaciones» que permiten a los modelos realizar diversas tareas para averiguar si una oración o frase específica contiene información específica. Este método mejoró la capacidad del modelo para adaptarse a diferentes tareas sin entrenamiento adicional, lo que se conoce como adaptación de tiro cero.
En el campo de la “comprensión del lenguaje natural” existen diversas aplicaciones en las que es importante determinar la relación entre dos partes de un texto. Por ejemplo, en la clasificación de sentimientos, una afirmación como «Me encanta la película» puede derivarse o derivarse de una reseña de una película que diga «Me gusta la historia y la actuación es genial», lo que indica un estado de ánimo positivo. Otra posibilidad es la clasificación de noticias, donde el tema de un artículo se puede inferir de su contenido. Por ejemplo, una afirmación como «El artículo de noticias trata sobre deportes» puede implicar que el contenido principal del artículo trata sobre un partido de la NBA. El principal hallazgo fue que muchas tareas existentes de comprensión del lenguaje natural podrían transformarse en una tarea de seguimiento (es decir, razonamiento lógico en lenguaje natural).
“Nuestra investigación trata de mejorar la capacidad de los programas informáticos para comprender y procesar el lenguaje natural: la forma en que las personas hablan y escriben. «Nuestros modelos de implicación autodidacta con 350 millones de parámetros y sin etiquetas generadas por humanos superan a los modelos de lenguaje supervisados con 137 a 175 mil millones de parámetros», dice Hongyin Luo, postdoctorado en CSAIL del MIT, autor principal de un nuevo artículo sobre el estudio. «Esto tiene el potencial de remodelar el panorama de la IA y el aprendizaje automático y proporcionar una solución de modelado de lenguaje más escalable, confiable y rentable», afirma Luo. «Al demostrar que los modelos más pequeños pueden funcionar tan bien como los más grandes en la comprensión del lenguaje, este trabajo allana el camino para tecnologías de IA más sostenibles y que preserven la privacidad».
El equipo descubrió que podían mejorar aún más el rendimiento del modelo mediante el uso de una técnica llamada «autoentrenamiento», en la que el modelo utiliza sus propias predicciones para enseñarse a sí mismo, aprendiendo de manera efectiva sin supervisión humana ni datos de entrenamiento adicionales anotados. Se ha mejorado significativamente el rendimiento del método de autoformación en una serie de tareas posteriores, incluido el análisis de sentimientos, la respuesta a preguntas y la clasificación de mensajes. Superó a LaMDA y FLAN de Google en términos de capacidades de disparo cero, modelos GPT y otros algoritmos monitoreados.
Sin embargo, un desafío del autoentrenamiento es que el modelo a veces puede generar etiquetas incorrectas o ruidosas que degradan el rendimiento. Para solucionar este problema, desarrollaron un nuevo algoritmo llamado «SimPLE» (Simple Pseudo-Label Editing), un proceso para verificar y modificar las pseudoetiquetas creadas en las primeras rondas de aprendizaje. Al corregir cualquier instancia mal etiquetada, se ha mejorado la calidad general de las etiquetas creadas por uno mismo. Esto hizo que los modelos no sólo fueran más eficaces para comprender el lenguaje, sino también más sólidos ante datos contradictorios.
Como ocurre con la mayoría de las investigaciones, existen algunas limitaciones. La autoformación en tareas de clasificación de clases múltiples no funcionó tan bien en tareas de comprensión del lenguaje natural binario, lo que indica el desafío de aplicar modelos de vinculación a tareas de opción múltiple.
«Esta investigación presenta una forma eficiente y eficaz de entrenar modelos de lenguaje grandes (LLM) formulando tareas de comprensión del lenguaje natural como problemas de inferencia contextual y empleando un mecanismo de autoentrenamiento de pseudoetiquetado para incluir grandes cantidades de datos de texto sin etiquetar en el proceso de entrenamiento. añade el científico investigador senior de CSAIL, James Glass, quien también es autor del artículo. «Si bien el campo de los LLM está experimentando cambios rápidos y dramáticos, esta investigación demuestra que es posible crear modelos de lenguaje relativamente compactos que funcionan muy bien en tareas de comprensión de referencia en comparación con sus modelos de lenguaje más o menos iguales o incluso mucho más grandes».
«La tarea de vinculación es un indicador popular para evaluar la ‘comprensión’ de un modelo de IA de un contexto determinado», dijo Leonid Karlinsky, investigador asociado en el Laboratorio de IA Watson del MIT-IBM. “Se utiliza en muchas áreas para analizar modelos con modelos unimodales como LLM y modelos multimodales como VLM. [visual language models] Entradas que simplifican la tarea de responder preguntas sobre un contexto de entrada específico a un problema de clasificación binaria: ¿este contexto implica una conclusión específica (por ejemplo, textual) o no? Este artículo hace dos contribuciones en esta área. En primer lugar, se propone una forma de mejorar el rendimiento de la NLU de disparo cero (sin optimización adicional) y la solidez contra los ataques del adversario mediante la optimización con tareas de vinculación sintetizadas (especializadas) generadas para la tarea de NLU original. En segundo lugar, ofrece un método SimPLE autosupervisado que incluye pseudoetiquetado y filtrado basado en la confianza para mejorar aún más el rendimiento de NLU de grandes LLM”.
Luo y Glass fueron coautores del artículo con Yoon Kim, miembro de CSAIL y profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT, y Jiaxin Ge de la Universidad de Pekín. Su trabajo se presentará en la reunión de la Asociación de Lingüística Computacional en Toronto, Ontario, este mes de julio. Esta investigación fue financiada por una subvención del programa de innovación en IA de Hong Kong.
[ad_2]