Entrenar eficientemente modelos de lenguaje para completar el medio

[ad_1]

Mostramos que los modelos de lenguaje autorregresivos pueden aprender a completar texto después de aplicar una transformación simple al conjunto de datos que simplemente mueve una sección de texto desde la mitad de un documento hasta el final. Aunque este aumento de datos ha atraído un interés considerable en los últimos años, proporcionamos amplia evidencia de que entrenar modelos con una gran porción de datos transformados de esta manera no compromete la capacidad original de generación de izquierda a derecha, como lo causa la perplejidad y las evaluaciones de muestras medidas. una amplia gama de escalas. Dada la utilidad, simplicidad y eficiencia de los modelos de entrenamiento de relleno intermedio (FIM), proponemos que los futuros modelos de lenguaje autorregresivo se entrenen utilizando FIM de forma predeterminada. Para ello realizamos una serie de ablaciones sobre importantes hiperparámetros como: B. la frecuencia de la transformación de datos, la estructura de la transformación y el método de selección del intervalo de llenado. Utilizamos estas ablaciones para prescribir valores predeterminados sólidos y mejores prácticas para entrenar modelos FIM. Hemos lanzado nuestro mejor modelo de relleno entrenado utilizando las mejores prácticas en nuestra API y estamos publicando nuestros puntos de referencia de relleno para respaldar futuras investigaciones.

[ad_2]

Subscribe to Updates

What's Hot

Entrenar eficientemente modelos de lenguaje para completar el medio

Related Posts