[ad_1]
Las computadoras tienen dos habilidades notables cuando se trata de imágenes: pueden identificarlas y regenerarlas. Históricamente, estas funciones han estado separadas, similares a las distintas acciones de un chef bueno creando platos (generación) y un conocedor bueno degustando platos (apreciación).
Sin embargo, uno no puede evitar preguntarse: ¿qué se necesitaría para lograr una conexión armoniosa entre estas dos habilidades diferentes? Tanto el chef como el conocedor comparten una comprensión común del sabor de la comida. Asimismo, un sistema unificado de procesamiento de imágenes requiere una comprensión profunda del mundo visual.
Ahora, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han entrenado un sistema para inferir las partes faltantes de una imagen, una tarea que requiere una comprensión profunda del contenido de la imagen. Al llenar con éxito los vacíos, el sistema conocido como Masked Generative Encoder (MAGE) logra simultáneamente dos objetivos: identificar imágenes con precisión y crear nuevas imágenes con un parecido sorprendente con la realidad.
Este sistema de doble propósito permite innumerables aplicaciones potenciales, como la identificación y clasificación de objetos en imágenes, el aprendizaje rápido a partir de ejemplos mínimos, la creación de imágenes bajo condiciones específicas, como texto o instrucciones, y mejora de imágenes existentes.
A diferencia de otras técnicas, MAGE no funciona con píxeles sin formato. En cambio, las imágenes se convierten en los llamados «tokens semánticos», que son versiones compactas pero abstractas de una sección de una imagen. Piense en estas piezas del juego como piezas de un mini rompecabezas, cada una de las cuales representa una sección de 16×16 de la imagen original. Así como las palabras forman oraciones, estos tokens crean una versión abstracta de una imagen que puede usarse para tareas de procesamiento complejas y al mismo tiempo preservar la información de la imagen original. Este paso de tokenización se puede entrenar en un marco autosupervisado, lo que permite el entrenamiento previo en conjuntos de datos de imágenes grandes sin anotaciones.
Ahora la magia comienza cuando MAGE usa «modelado de tokens enmascarados». Oculta aleatoriamente algunas de esas fichas, creando un rompecabezas incompleto, y luego entrena una red neuronal para llenar los vacíos. De esta forma, aprende a comprender los patrones de una imagen (reconocimiento de imágenes) y a crear otros nuevos (generación de imágenes).
«Una parte notable de MAGE es su estrategia de enmascaramiento variable durante el preentrenamiento, lo que le permite entrenar dentro del mismo sistema para tareas, imágenes o detección», dice Tianhong Li, estudiante de doctorado en ingeniería eléctrica e informática en el MIT. , socio de CSAIL y autor principal de un artículo sobre la investigación. “La capacidad de MAGE para operar en un ‘espacio simbólico’ en lugar de un ‘espacio de píxeles’ da como resultado imágenes claras, detalladas y de alta calidad y representaciones de imágenes semánticamente ricas. Con suerte, esto podría allanar el camino para modelos de visión por computadora avanzados e integrados”.
Además de la capacidad de generar imágenes realistas desde cero, MAGE también permite la generación de imágenes condicionales. Los usuarios pueden especificar ciertos criterios para las imágenes que MAGE debe generar y luego la herramienta creará la imagen adecuada. También es capaz de realizar tareas de edición de imágenes como B. Eliminar elementos de una imagen manteniendo una apariencia realista.
Las tareas de reconocimiento son otro punto fuerte de MAGE. Con su capacidad para entrenar previamente grandes conjuntos de datos sin etiquetar, puede clasificar imágenes basándose únicamente en las representaciones aprendidas. Además, sobresale en el aprendizaje de bajo nivel y logra resultados impresionantes en conjuntos de datos de imágenes grandes como ImageNet con solo un puñado de ejemplos etiquetados.
La confirmación del desempeño de MAGE fue impresionante. Por un lado, marcó nuevos récords en la generación de nuevas imágenes, superando con una mejora significativa a los modelos anteriores. Por otro lado, para las tareas de detección, MAGE lideró el camino, logrando una precisión del 80,9 por ciento en el sondeo lineal y una precisión de 10 disparos del 71,9 por ciento en ImageNet (lo que significa que las imágenes son correctas el 71,9 por ciento de las veces se identificaron, aunque solo había 10 ejemplos etiquetados de cada uno). Clase).
A pesar de sus puntos fuertes, el equipo de investigación reconoce que MAGE es todavía un trabajo en progreso. El proceso de convertir imágenes en tokens implica inevitablemente cierta pérdida de información. Está interesado en explorar formas de comprimir imágenes sin perder detalles importantes en trabajos futuros. El equipo también pretende probar MAGE en conjuntos de datos más grandes. Las investigaciones futuras podrían incluir el entrenamiento de MAGE en conjuntos de datos más grandes sin etiquetar, lo que podría conducir a un rendimiento aún mejor.
“Ha sido un sueño durante mucho tiempo lograr la generación y el reconocimiento de imágenes en un solo sistema. MAGE es una investigación innovadora que utiliza con éxito la sinergia de estas dos tareas y logra tecnología de punta en un solo sistema”, dice Huisheng Wang, ingeniero senior de software para interacciones humanas y en el departamento de investigación e inteligencia artificial de Google. , quien no participó en el trabajo. «Este sistema innovador tiene una amplia gama de aplicaciones y tiene el potencial de inspirar muchos trabajos futuros en visión por computadora».
Li coescribió el artículo con Dina Katabi, profesora Thuan y Nicole Pham en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT e investigadora principal de CSAIL; Huiwen Chang, científico investigador senior de Google; Shlok Kumar Mishra, estudiante de posgrado de la Universidad de Maryland y pasante en Google Research; Han Zhang, un estudiante de último año científico investigador en Google; y Dilip Krishnan, investigador asociado de Google. Los recursos informáticos fueron proporcionados por Google Cloud Platform y MIT-IBM Watson AI Lab. La investigación del equipo se presentó en la Conferencia de reconocimiento de patrones y visión por computadora de 2023.
[ad_2]