[ad_1]
En nuestra era actual de inteligencia artificial, las computadoras pueden crear su propio “arte” utilizando modelos de difusión, agregando estructura de manera iterativa a un estado inicial ruidoso hasta que emerge una imagen o un video claro. Los modelos de difusión de repente se han asegurado un lugar en todas las mesas: escriba algunas palabras y experimente paisajes oníricos instantáneos que inducen dopamina en la intersección de la realidad y la fantasía. Hay un proceso complejo y que requiere mucho tiempo entre bastidores y que requiere numerosas iteraciones para que el algoritmo perfeccione la imagen.
Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han introducido un nuevo marco que simplifica el proceso de varios pasos de los modelos de difusión tradicionales en un solo paso, eliminando las limitaciones anteriores. Esto se hace mediante una especie de modelo profesor-alumno: se enseña un nuevo modelo informático para imitar el comportamiento de modelos originales más complicados que producen imágenes. El enfoque, conocido como Destilación de Coincidencia de Distribución (DMD), mantiene la calidad de las imágenes generadas y permite una generación mucho más rápida.
«Nuestro trabajo es un método novedoso que acelera 30 veces los modelos de difusión actuales, como la Difusión Estable y DALLE-3», dice Tianwei Yin, estudiante de doctorado del MIT en ingeniería eléctrica e informática, socio de CSAIL e investigador principal del marco DMD. “Este avance no sólo reduce significativamente el tiempo de computación, sino que también mantiene, si no supera, la calidad del contenido visual generado. Teóricamente, el enfoque combina los principios de las redes generativas adversarias (GAN) con los de los modelos de difusión, logrando la generación de contenido visual en un solo paso, un marcado contraste con los cientos de pasos de refinamiento iterativo que requieren los modelos de difusión actuales. Potencialmente, podría ser un nuevo método de modelado generativo que sobresalga en velocidad y calidad”.
Este modelo de difusión de una sola etapa podría mejorar las herramientas de diseño, permitir una creación de contenido más rápida y potencialmente respaldar avances en el descubrimiento de fármacos y el modelado 3D, donde la velocidad y la eficacia son fundamentales.
Sueños de ventas
DMD consta inteligentemente de dos componentes. Primero, la pérdida de regresión se utiliza para anclar el mapeo para garantizar una organización aproximada del espacio de la imagen y hacer que el entrenamiento sea más estable. A continuación, se utiliza una pérdida de ajuste de distribución, que garantiza que la probabilidad de producir una imagen particular con el modelo de estudiante corresponda a su frecuencia real de aparición. Para ello, utiliza dos modelos de difusión que actúan como guía y ayudan al sistema a comprender la diferencia entre imágenes reales y generadas y permiten entrenar el generador rápido de un solo paso.
El sistema logra una generación más rápida al entrenar una nueva red para minimizar la divergencia de distribución entre sus imágenes generadas y las del conjunto de datos de entrenamiento utilizado por los modelos de difusión tradicionales. «Nuestra idea clave es aproximar los gradientes que guían la mejora del nuevo modelo utilizando dos modelos de difusión», afirma Yin. «De esta manera, destilamos el conocimiento del modelo original, más complejo, en un modelo más simple y rápido, evitando al mismo tiempo los notorios problemas de inestabilidad y colapso de modo en las GAN».
Yin y sus colegas utilizaron redes previamente entrenadas para el nuevo modelo de estudiante, simplificando el proceso. Al copiar y ajustar los parámetros de los modelos originales, el equipo logró una rápida convergencia del entrenamiento del nuevo modelo, capaz de producir imágenes de alta calidad con la misma base arquitectónica. «Esto permite la combinación con otras optimizaciones del sistema basadas en la arquitectura original para acelerar aún más el proceso de construcción», añade Yin.
Cuando se probó utilizando métodos estándar y una amplia gama de puntos de referencia, DMD tuvo un desempeño consistente. DMD es la primera técnica de difusión de una sola etapa basada en el popular punto de referencia para generar imágenes basadas en clases específicas en ImageNet, produciendo imágenes casi iguales a las de los modelos originales más complejos, al tiempo que logra una distancia inicial de Fréchet muy cercana (valor FID). es solo 0,3, lo cual es impresionante ya que FID se trata de evaluar la calidad y variedad de las imágenes generadas. Además, DMD sobresale en la generación de texto a imagen a escala industrial y logra un rendimiento de última generación en un -generación de pasos: Todavía hay una ligera brecha en la calidad para las aplicaciones de conversión de texto a imagen más difíciles, lo que sugiere que todavía hay margen de mejora en todos los ámbitos.
Además, el rendimiento de las imágenes generadas por DMD está indisolublemente ligado a las capacidades del modelo docente utilizado durante el proceso de destilación. En la forma actual, al utilizar Stable Diffusion v1.5 como modelo de profesor, el estudiante hereda limitaciones como mostrar representaciones detalladas de texto y caras pequeñas, lo que sugiere que las imágenes generadas por DMD podrían mejorarse aún más con modelos de profesor más avanzados.
«Reducir el número de iteraciones ha sido el Santo Grial de los modelos de difusión desde sus inicios», dice Fredo Durand, profesor de ingeniería eléctrica e informática del MIT, investigador principal de CSAIL y autor principal del artículo. «Estamos entusiasmados de poder finalmente permitir la generación de imágenes en un solo paso, lo que reducirá drásticamente los costos computacionales y acelerará el proceso».
«Finalmente, un artículo que combina con éxito la versatilidad y la alta calidad visual de los modelos de difusión con el rendimiento en tiempo real de las GAN», dice Alexei Efros, profesor de ingeniería eléctrica e informática de la Universidad de California, Berkeley, que no participó. en este estudio. «Espero que este trabajo abra posibilidades fantásticas para la edición visual de alta calidad en tiempo real».
Los coautores de Yin y Durand son el profesor de ingeniería eléctrica y ciencias de la computación del MIT e investigador principal de CSAIL William T. Freeman y los investigadores de Adobe Michaël Gharbi SM '15, PhD '18; Richard Zhang; Eli Shechtman; y el parque Taesung. Su trabajo fue apoyado en parte por subvenciones de la Fundación Nacional de Ciencias de EE. UU. (incluida una para el Instituto de Inteligencia Artificial e Interacciones Fundamentales), la Agencia de Ciencia y Tecnología de Defensa de Singapur y financiación del Instituto de Ciencia y Tecnología de Gwangju y Amazon. Su trabajo se presentará en la conferencia Computer Vision and Pattern Recognition en junio.
[ad_2]