[ad_1]
La IA generativa, actualmente a la vanguardia del discurso popular, promete un mundo donde lo simple se transforma en complejo, donde una distribución simple evoluciona hacia patrones complicados de imágenes, sonidos o texto, haciendo que lo artificial sea sorprendentemente real.
Los reinos de la imaginación ya no son meras abstracciones, ya que investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han dado vida a un modelo innovador de IA. Su nueva tecnología integra dos leyes físicas aparentemente independientes que subyacen a los modelos generativos más poderosos hasta la fecha: Difusión, que típicamente ilustra el movimiento aleatorio de elementos, tales como: B. Calor que impregna un espacio, o un gas que se expande en el espacio, y flujo de Poisson, que se basa en los principios que gobiernan la actividad de las cargas eléctricas.
Esta combinación armoniosa ha dado como resultado un rendimiento superior en la generación de nuevas imágenes, superando a los modelos de última generación existentes. Desde su introducción, el modelo generativo de flujo de Poisson++ (PFGM++) ha encontrado aplicaciones potenciales en diversas áreas, desde la generación de secuencias de anticuerpos y ARN hasta la producción de audio y la generación de gráficos.
El modelo puede crear patrones complejos, como crear imágenes realistas o imitar procesos reales. PFGM++ se basa en PFGM, el trabajo del equipo del año anterior. PFGM se inspira en los medios detrás de la ecuación matemática llamada ecuación de «Poisson» y luego la aplica a los datos de los que el modelo quiere aprender. Para hacer esto, el equipo utilizó un truco inteligente: agregaron una dimensión adicional al «espacio» de su modelo, similar a cuando se pasa de un boceto 2D a un modelo 3D. Esta dimensión adicional proporciona más libertad de acción, coloca los datos en un contexto más amplio y ayuda a generar nuevas muestras para abordar los datos desde todas las direcciones.
«PFGM++ es un ejemplo del tipo de avances en IA que pueden ser impulsados por la colaboración interdisciplinaria entre físicos e informáticos», dice Jesse Thaler, físico teórico de partículas en el Centro de Física Teórica del Laboratorio de Ciencias Nucleares del MIT y director de IA en el Instituto de la Fundación Nacional de Ciencias para la Inteligencia Artificial y las Interacciones Fundamentales (NSF AI IAIFI), que no participó en el trabajo. “En los últimos años, los modelos generativos basados en IA han producido numerosos resultados sorprendentes, desde imágenes fotorrealistas hasta flujos de texto claros. Sorprendentemente, algunos de los modelos generativos más potentes se basan en conceptos probados de la física, como las simetrías y la termodinámica. PFGM++ toma una idea centenaria de la física fundamental (que puede haber dimensiones adicionales del espacio-tiempo) y la convierte en una herramienta potente y robusta para generar conjuntos de datos sintéticos pero realistas. Me emociona ver cómo la “inteligencia física” está cambiando el campo de la inteligencia artificial”.
El mecanismo subyacente de la PFGM no es tan complejo como parece. Los investigadores compararon los puntos de datos con pequeñas cargas eléctricas colocadas en un plano en un mundo dimensionalmente expandido. Estas cargas crean un «campo eléctrico», mediante el cual las cargas intentan moverse hacia arriba a lo largo de las líneas de campo hacia una dimensión adicional, formando así una distribución uniforme a lo largo de un hemisferio imaginario gigante. El proceso de creación es similar a rebobinar una cinta de vídeo: comenzando con un conjunto de cargas distribuidas uniformemente en el hemisferio y rastreando su viaje de regreso al plano a lo largo de las líneas eléctricas, alineándolas para que coincidan con la distribución de datos original. Este fascinante proceso permite que el modelo neuronal aprenda el campo eléctrico y genere nuevos datos que reflejen el original.
El modelo PFGM++ extiende el campo eléctrico en PFGM a un marco complejo y de dimensiones superiores. Si ampliamos aún más estas dimensiones, sucede algo inesperado: el modelo se parece a otra clase importante de modelos, los modelos de difusión. Este trabajo trata de encontrar el equilibrio adecuado. Los modelos PFGM y de difusión se encuentran en extremos opuestos de un espectro: uno es robusto pero complejo de usar, el otro es más simple pero menos robusto. El modelo PFGM++ ofrece un punto óptimo, logrando un equilibrio entre robustez y facilidad de uso. Esta innovación allana el camino para una generación más eficiente de imágenes y patrones y marca un avance significativo en la tecnología. Además de las dimensiones ajustables, los investigadores propusieron un nuevo método de entrenamiento que permite un aprendizaje más eficiente del campo eléctrico.
Para hacer realidad esta teoría, el equipo resolvió un par de ecuaciones diferenciales que detallan el movimiento de estas cargas dentro del campo eléctrico. Evaluaron el rendimiento utilizando la puntuación Frechet Inception Distance (FID), una métrica ampliamente aceptada que evalúa la calidad de las imágenes generadas por el modelo en comparación con las imágenes reales. PFGM++ también tiene mayor resistencia a errores y robustez en comparación con el tamaño de paso en las ecuaciones diferenciales.
De cara al futuro, su objetivo es refinar ciertos aspectos del modelo, particularmente de manera sistemática para identificar el valor de «punto óptimo» de D adaptado a datos, arquitecturas y tareas específicas mediante el análisis del comportamiento y los errores de estimación de las redes neuronales. También planean aplicar PFGM++ a la generación moderna de texto a imagen/texto a video a gran escala.
«Los modelos de difusión se han convertido en una fuerza impulsora clave detrás de la revolución de la IA generativa», dice Yang Song, científico investigador de OpenAI. “PFGM++ representa una poderosa generalización de los modelos de difusión que permite a los usuarios generar imágenes de mayor calidad al mejorar la solidez de la generación de imágenes ante perturbaciones y errores de aprendizaje. «Además, PFGM++ revela una conexión sorprendente entre la electrostática y los modelos de difusión y proporciona nuevos conocimientos teóricos sobre la investigación de los modelos de difusión».
«Los modelos de flujo generativo de Poisson no solo se basan en una elegante formulación inspirada en la física basada en la electrostática, sino que también proporcionan potencia de modelado generativo de vanguardia en la práctica», dice Karsten Kreis, científico investigador senior de NVIDIA, que no participó en el trabajo. “Superan incluso los modelos de difusión popular que dominan actualmente la literatura. Esto la convierte en una herramienta de modelado generativo muy poderosa y puedo imaginar su aplicación en diversas áreas, desde la creación de contenido digital hasta el desarrollo de fármacos generativos. En general, creo que explorar más marcos de modelado generativo inspirados físicamente es prometedor para el futuro y que los modelos generativos de flujo de Poisson son solo el comienzo”.
Los autores de un artículo sobre este trabajo incluyen a tres estudiantes graduados del MIT: Yilun Xu del Departamento de Ingeniería Eléctrica e Informática (EECS) y CSAIL, Ziming Liu del Departamento de Física y NSF AI IAIFI, y Shangyuan Tong de EECS y CSAIL. y Yonglong Tian PhD ’23, investigador científico senior de Google. Los profesores del MIT Max Tegmark y Tommi Jaakkola asesoraron la investigación.
El equipo contó con el apoyo de la colaboración MIT-DSTA Singapur, el MIT-IBM Watson AI Lab, subvenciones de la National Science Foundation, la Casey and Family Foundation, el Foundational Question Institute, el Rothberg Family Fund for Cognitive Science y el ML for Descubrimiento farmacéutico apoyado y consorcio de síntesis. Su trabajo fue presentado este verano en la Conferencia Internacional sobre Aprendizaje Automático.
[ad_2]