[ad_1]
Construir modelos que entiendan y generen bien el lenguaje natural es uno de los grandes objetivos de la investigación del aprendizaje automático (ML) y tiene un impacto directo en la construcción de sistemas inteligentes para aplicaciones cotidianas. Mejorar la calidad de los modelos de lenguaje es un objetivo clave para que los investigadores avancen hacia ese objetivo.
Los paradigmas más comunes para crear y entrenar modelos de lenguaje usan arquitecturas que son solo decodificadores autorregresivos (por ejemplo, PaLM o GPT-3), donde el modelo está entrenado para predecir la siguiente palabra para una frase de prefijo dada, o un codificador basado en corrupción. arquitecturas de decodificadores (por ejemplo, T5, ST-MoE) donde el objetivo de entrenamiento es recuperar el subconjunto de palabras enmascaradas de la entrada. Por un lado, los modelos tipo T5 se desempeñan bien en tareas de ajuste fino supervisadas, pero tienen dificultades con el aprendizaje contextual con pocas tomas. Por otro lado, los modelos de lenguaje autorregresivos son excelentes para la generación abierta (por ejemplo, la generación de diálogos con LaMDA) y el aprendizaje basado en indicaciones (por ejemplo, el aprendizaje contextual con PaLM), pero pueden ser subóptimos para tareas de ajuste fino. Esto deja la posibilidad de crear un marco unificado efectivo para los modelos preescolares.
En Unificando paradigmas de aprendizaje de idiomas, presentamos un paradigma novedoso de preentrenamiento de idiomas llamado Unified Language Learner (UL2) que mejora el rendimiento de los modelos de idiomas universalmente en conjuntos de datos y configuraciones. UL2 enmarca varias funciones objetivas para entrenar modelos de lenguaje como tareas de reducción de ruido donde el modelo necesita recuperar subsecuencias faltantes de una entrada determinada. Durante el pre-entrenamiento, utiliza una novela Mezcla de eliminadores de ruido que contiene muestras de una variedad de tales lentes, cada una con diferentes configuraciones. Mostramos que los modelos entrenados con el marco UL2 funcionan bien en una variedad de dominios del idioma, incluido el aprendizaje basado en indicaciones con pocos disparos y modelos optimizados para tareas posteriores. Además, mostramos que UL2 sobresale en tareas de generación, comprensión de lenguaje, recuperación, comprensión de textos extensos y respuesta a preguntas. Finalmente, nos complace anunciar públicamente los puntos de control de nuestro modelo de parámetros UL2 de 20 mil millones de mejor rendimiento.
Antecedentes: objetivos y arquitecturas del modelado del lenguaje
Las funciones objetivas comunes para entrenar modelos de lenguaje se pueden formular principalmente como transformaciones de datos de aprendizaje que asignan entradas a objetivos. El modelo está condicionado a diferentes tipos de entradas para predecir tokens objetivo. Con este fin, diferentes objetivos utilizan diferentes propiedades de las entradas.
El objetivo de modelado de lenguaje causal predeterminado (CausalLM) está entrenado para predecir longitudes de secuencia completas y, por lo tanto, solo reconoce tokens en la salida de destino. El objetivo de modelado de lenguaje de prefijo (PrefixLM) modifica este proceso al muestrear aleatoriamente un tramo contiguo de k Token del texto tokenizado dado para formar la entrada del modelo, llamado «prefijo». El objetivo de corrupción de tramo enmascara tramos contiguos de las entradas y entrena el modelo para predecir esos tramos enmascarados.
En la siguiente tabla, enumeramos los objetivos comunes para los que se entrenan los modelos de lenguaje de última generación, junto con las diferentes características de la entrada, es decir, cómo se presenta al modelo. Además, caracterizamos la eficiencia ejemplar de cada objetivo en términos de la capacidad del modelo para utilizar señales de monitoreo de una sola entrada, p. B. cuánto contribuyen los tokens de entrada al cálculo de la pérdida.
objetivo función |
entradas (bidireccional) |
Metas (Causal) |
Entrada Características |
ejemplo eficiencia |
causalLM | ninguna | texto | N / A | completar seq_len |
prefijoLM | Texto (a la posición k) | Texto (después de la posición k) | coherente | seq_len – k |
Corrupción de alcance | texto enmascarado | tokens_enmascarados | no contiguas, pueden ser bidireccionales | generalmente más bajo que otros |
Objetivos comunes utilizados en los modelos lingüísticos actuales. En todo momento, «texto» denota texto tokenizado. |
UL2 aprovecha las fortalezas de cada una de estas funciones objetivas a través de un marco que generaliza a cada una de ellas, lo que permite la capacidad de justificar y unificar metas preescolares comunes. Según este marco, la tarea principal para entrenar un modelo de lenguaje es aprender la transformación de una secuencia de tokens de entrada en una secuencia de tokens de destino. Entonces, todas las funciones objetivas presentadas anteriormente pueden reducirse simplemente a diferentes formas de generar tokens de entrada y objetivos. Por ejemplo, el destino PrefixLM puede verse como una transformación que mueve un segmento de k fichas contiguas de las entradas a los destinos. Mientras tanto, el objetivo de corrupción de intervalos es una transformación de datos que corrompe los intervalos (una subsecuencia de tokens en la entrada) y los reemplaza con tokens de máscara que se envían a los objetivos.
Vale la pena señalar que se puede desacoplar la arquitectura del modelo y la función objetivo en la que se entrena. Por lo tanto, es posible entrenar diferentes arquitecturas, como los modelos comunes de decodificador de una sola pila y codificador-decodificador de dos pilas, con cada uno de estos objetivos.
Mezcla de eliminadores de ruido
El marco UL2 se puede usar para entrenar un modelo con una combinación de objetivos de entrenamiento previo y proporcionarle capacidades y beneficios de sesgo inductivo de varias tareas de entrenamiento previo. La capacitación sobre la combinación ayuda al modelo a capitalizar las fortalezas de varias tareas y mitigar las debilidades de otras. Por ejemplo, el objetivo de combinar eliminadores de ruido puede mejorar en gran medida la capacidad de aprendizaje basada en indicaciones del modelo, en contraste con un modelo T5 que solo contiene corrupción de intervalo.
UL2 está capacitado con una combinación de tres tareas de reducción de ruido: (1) R eliminación de ruido (o corrupción de tramo regular) que emula el objetivo de corrupción de tramo T5 predeterminado; (2) X eliminación de ruido (o corrupción de tramo extremo); y (3) S reducción de ruido (o prefijo secuencialLM). Durante el entrenamiento previo, tomamos muestras de las tareas de eliminación de ruido disponibles en función de las proporciones definidas por el usuario (es decir, diferentes combinaciones de los eliminadores de ruido R, X y S) y preparamos la entrada y el objetivo en consecuencia. Luego, se agrega un token de paradigma a la entrada (uno de [R]
, [X]
o [S]
) que indica la tarea de reducción de ruido en cuestión.
![]() |
Una descripción general de los objetivos de reducción de ruido utilizados en los canceladores compuestos UL2. |
Mejorar las compensaciones entre los paradigmas de aprendizaje
Muchos paradigmas de aprendizaje de idiomas existentes y de uso común se caracterizan típicamente por algún tipo de tarea o aplicación, como B. perfeccionar el rendimiento o el aprendizaje impulsado en contexto. En el siguiente gráfico mostramos funciones objetivo base para diferentes tareas en comparación con UL2: CausalLM (conocido como similar a GPT), PrefixLM, Span corrupto (también denominado T5 en la ilustración) y una función objetivo básica propuesta por UniLM. Usamos estos objetivos para entrenar arquitecturas solo decodificador (verde) y codificador-decodificador (azul), y evaluamos diferentes combinaciones de funciones y arquitecturas objetivo para dos tareas principales:
- Ajuste con precisión midiendo la potencia en SuperGLUE (eje Y del gráfico a continuación)
- Aprendizaje en contexto mediante la medición del rendimiento del modelo en una serie de tareas GEM de 1 disparo (por ejemplo, XSUM, SGD o diálogo guiado por esquema y TOTTO) (eje x del diagrama a continuación).
En la mayoría de los paradigmas de aprendizaje de idiomas existentes, existe un compromiso entre la calidad del modelo para estos dos conjuntos de tareas. Mostramos que UL2 une este compromiso entre el aprendizaje contextual y el ajuste fino.
![]() |
Tanto en las configuraciones de decodificador solo como de codificador-decodificador, UL2 logra un equilibrio de rendimiento significativamente mejorado entre las tareas de discriminación ajustadas y la generación de texto abierto de 1 disparo basada en indicaciones en comparación con los métodos anteriores. (Todos los modelos son comparables en términos de costo computacional, es decir, FLOP (los modelos EncDec tienen 300M y los modelos Dec tienen 150M de parámetros). |
UL2 para sugerencias de pocos disparos y razonamiento de cadena de pensamiento
Escalamos UL2 y entrenamos un modelo de codificador-descodificador de 20 mil millones de parámetros en el corpus público C4 y demostramos algunas capacidades impresionantes del modelo UL2 20B.
UL2 es un poderoso aprendiz contextual que sobresale tanto en indicaciones de tiro bajo como en indicaciones de cadena de pensamiento (CoT). En la siguiente tabla, comparamos UL2 con otros modelos de última generación (p. ej., T5 XXL y PaLM) para la indicación de pocas tomas en el conjunto de datos de resumen XSUM. Nuestros resultados muestran que UL2 supera a 20B PaLM y T5, los cuales están en el mismo orden de magnitud en el costo computacional.
modelo | ROJO-1 | ROJO-2 | ROJO L |
LaMDA 137B | – | 5.4 | – |
PALMA 62B | – | 11.2 | – |
PALMA 540B | – | 12.2 | – |
PALMA 8B | – | 4.5 | – |
T5 XXL 11B | 0.6 | 0.1 | 0.6 |
T5 XXL 11B + LM | 13.3 | 2.3 | 10.7 |
UL2 20B | 25.5 | 8.6 | 19.8 |
Comparación de UL2 frente a T5 XXL, PaLM y LamDA 137B en 1-Shot Summary (XSUM) en términos de ROUGE-1/2/L (cuanto más alto, mejor) capturando la calidad comparando los resúmenes generados con los resúmenes dorados como Referencia a ser comparado. |
La mayoría de los resultados de entrada de CoT se obtuvieron con modelos de lenguaje mucho más grandes como GPT-3 175B, PaLM 540B o LaMDA 137B. Mostramos que el razonamiento a través del indicador CoT se puede lograr con UL2 20B, que está disponible públicamente y es mucho más pequeño que los modelos anteriores que utilizan el indicador de cadena de pensamiento. Esto abre un camino abierto para que los investigadores realicen investigaciones sobre indicaciones e inferencias de CoT a una escala accesible. En la siguiente tabla, mostramos que para UL2, el indicador CoT supera al indicador estándar en problemas matemáticos verbales en una variedad de dificultades (GSM8K, SVAMP, ASDiv, AQuA y MAWPS). También mostramos que la autoconsistencia mejora aún más el rendimiento.
![]() |
Las indicaciones de cadena de pensamiento (CoT) y la autoconsistencia (SC) son el resultado de cinco puntos de referencia de razonamiento aritmético. |
Conclusión y direcciones futuras
UL2 demuestra un rendimiento superior en una variedad de tareas de ajuste fino y tiro bajo. Estamos lanzando puntos de control de nuestro modelo UL2 de mejor rendimiento con 20 000 millones de parámetros, lo que esperamos conduzca a un progreso más rápido en el desarrollo de mejores modelos de lenguaje en la comunidad de aprendizaje automático en general.
Gracias
Fue un honor y un privilegio trabajar en él con Vinh Q. Tran, Xavier Garcia, Jason Wei, Xuezhi Wang, Hyung Won Chung, Dara Bahri, Tal Schuster, Huaixiu Steven Zheng, Denny Zhou, Neil Houlsby y Donald Metzler. También agradecemos a Alexey Gritsenko, Andrew M. Dai, Jacob Devlin, Jai Gupta, William Fedus, Orhan Firat, Sebastian Gerhmann, Nan Du, Dave Uthus, Siamak Shakeri, Slav Petrov y Quoc Le por el apoyo y los debates. Gracias al equipo de Jax y T5X por construir una infraestructura tan maravillosa que ha hecho posible esta investigación.
[ad_2]