Los datos son el nuevo suelo, y en este nuevo y fértil suelo los investigadores del MIT están plantando algo más que píxeles. Al utilizar imágenes sintéticas para entrenar modelos de aprendizaje automático, un equipo de científicos superó recientemente los métodos tradicionales de entrenamiento con «imagenes reales».
En el centro de este enfoque se encuentra un sistema llamado StableRep que no utiliza simplemente imágenes sintéticas; Los genera a través de modelos de texto a imagen extremadamente populares como Stable Diffusion. Es como crear mundos con palabras.
Entonces, ¿qué hay en la salsa secreta de StableRep? Una estrategia llamada “aprendizaje contrastivo multipositivo”.
«Enseñamos el modelo para aprender conceptos de alto nivel a través del contexto y la variación, no solo a través de la entrada de datos», dice Lijie Fan, candidata a doctorado en ingeniería eléctrica del MIT, filial del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL). ), investigador principal del trabajo. «Cuando se utilizan varias imágenes, todas generadas a partir del mismo texto y todas tratadas como representaciones de lo mismo subyacente, se profundiza en los conceptos detrás de las imágenes, como el objeto, y no solo en sus píxeles».
Este enfoque considera múltiples imágenes resultantes de indicaciones de texto idénticas como pares positivos, que brindan información adicional durante el entrenamiento, no solo brindando más variedad sino también indicando al sistema de visión qué imágenes son similares y cuáles son diferentes. Sorprendentemente, StableRep superó a los modelos de primera línea entrenados en imágenes reales, como B. SimCLR y CLIP, en extensos conjuntos de datos.
“Si bien StableRep ayuda a mitigar los desafíos de la recopilación de datos en el aprendizaje automático, también presagia un paso hacia una nueva era de técnicas de entrenamiento de IA. La capacidad de crear imágenes sintéticas diversas y de alta calidad a pedido podría ayudar a ahorrar costos y recursos engorrosos”, afirma Fan.
El proceso de recopilación de datos nunca ha sido fácil. En la década de 1990, los investigadores tuvieron que tomar fotografías manualmente para compilar conjuntos de datos de objetos y rostros. En la década de 2000, las personas buscaban datos en Internet. Sin embargo, estos datos brutos y no seleccionados a menudo tenían discrepancias en comparación con escenarios del mundo real y reflejaban sesgos sociales, dando una imagen distorsionada de la realidad. La tarea de limpiar conjuntos de datos mediante la intervención humana no sólo es costosa sino también extremadamente desafiante. Pero imaginemos si esta tediosa recopilación de datos pudiera reducirse a algo tan simple como emitir una orden en lenguaje natural.
Un aspecto crucial del éxito de StableRep es el ajuste de la «escala guía» en el modelo generativo, que asegura un delicado equilibrio entre la diversidad y la fidelidad de las imágenes sintéticas. Cuando se afinaron, las imágenes sintéticas utilizadas en el entrenamiento de estos modelos autosupervisados demostraron ser tan efectivas, si no más, que las imágenes reales.
Para ir un paso más allá, se agregó monitoreo de voz a la mezcla, creando una variante avanzada: StableRep+. Cuando se entrenó con 20 millones de imágenes sintéticas, StableRep+ no solo logró una precisión superior, sino que también demostró una eficiencia notable en comparación con los modelos CLIP entrenados con la increíble cantidad de 50 millones de imágenes reales.
Sin embargo, el camino por delante no está exento de baches. Los investigadores abordan abiertamente varias limitaciones, incluida la lentitud actual de generación de imágenes, las discrepancias semánticas entre las indicaciones de texto y las imágenes resultantes, la posible amplificación de los sesgos y las complejidades en la comparación de imágenes, todo lo cual es fundamental abordar para futuros avances. Otro problema es que StableRep primero requiere entrenar el modelo generativo con grandes datos del mundo real. El equipo reconoce que todavía es necesario empezar con datos reales; Sin embargo, si tiene un buen modelo generativo, puede usarlo para nuevas tareas, como entrenar modelos de reconocimiento y representaciones visuales.
El equipo señala que aún no han superado la necesidad de comenzar con datos reales; Es solo que una vez que tienes un buen modelo generativo, puedes reutilizarlo para nuevas tareas como entrenar modelos de reconocimiento y representaciones visuales.
Si bien StableRep ofrece una buena solución al reducir la dependencia de enormes colecciones de imágenes reales, genera preocupaciones sobre sesgos ocultos en los datos no seleccionados utilizados para estos modelos de texto a imagen. La elección de las indicaciones de texto, que son una parte integral del proceso de síntesis de imágenes, no está completamente libre de sesgos, «lo que apunta al papel esencial de una cuidadosa selección de texto o una posible curación humana», dice Fan.
“Al utilizar los últimos modelos de conversión de texto a imagen, hemos obtenido un control sin precedentes sobre la generación de imágenes y podemos crear una amplia gama de imágenes con una sola entrada de texto. Esto supera la colección de imágenes reales en eficiencia y versatilidad. Resulta particularmente útil en tareas específicas, como equilibrar la diversidad de imágenes en el reconocimiento de cola larga, y proporciona un complemento práctico al uso de imágenes reales para el entrenamiento», afirma Fan. «Nuestro trabajo representa un paso adelante en el aprendizaje visual, hacia el objetivo de ofreciendo alternativas de capacitación rentables y al mismo tiempo resaltando la necesidad de mejoras continuas en la calidad y síntesis de los datos”.
«Un sueño del aprendizaje de modelos generativos ha sido durante mucho tiempo generar datos útiles para el entrenamiento de modelos discriminativos», dice David Fleet, investigador de Google DeepMind y profesor de informática en la Universidad de Toronto, que no participó en el trabajo. “Aunque vimos algunas señales de vida, el sueño fue difícil de alcanzar, especialmente en áreas grandes y complejas, como las imágenes de alta resolución. Hasta donde yo sé, este artículo proporciona, por primera vez, evidencia convincente de que el sueño se está convirtiendo en realidad. Muestran que el aprendizaje contrastivo a partir de cantidades masivas de datos de imágenes sintéticas puede producir representaciones que superan a las representaciones aprendidas a partir de datos reales a escala, con el potencial de mejorar innumerables tareas visuales posteriores”.
A Fan se une Yonglong Tian PhD ’22 como autores principales del artículo, así como Phillip Isola, profesor asociado de ingeniería eléctrica e informática en el MIT e investigador principal de CSAIL; Huiwen Chang, investigador de Google y miembro técnico de OpenAI; y el científico investigador de Google Dilip Krishnan. El equipo presentará StableRep en la conferencia Neural Information Processing Systems (NeurIPS) de 2023 en Nueva Orleans.