[ad_1]
Los generadores de imágenes de IA que crean vistas fantásticas en la intersección del sueño y la realidad están apareciendo en todos los rincones de Internet. Su valor de entretenimiento se demuestra a través de un tesoro cada vez mayor de imágenes caprichosas y aleatorias que sirven como portales indirectos a los cerebros de los diseñadores humanos. Un mensaje de texto simple produce una imagen casi instantánea que satisface nuestros cerebros primitivos, que están programados para la gratificación instantánea.
Aunque aparentemente aún es incipiente, el campo del arte generado por IA se remonta a la década de 1960, con los primeros intentos de crear imágenes técnicas utilizando enfoques simbólicos basados en reglas. Si bien el avance de los modelos que desentrañan y analizan las palabras se ha vuelto cada vez más sofisticado, la explosión del arte generativo ha desatado un debate sobre los derechos de autor, la desinformación y los prejuicios, todo sumido en exageraciones y controversias. Yilun Du, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación y miembro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, desarrolló recientemente un nuevo método que hace que los modelos como DALL-E 2 sean más creativos y proporciona una mejor comprensión de la escena. . Aquí describe cómo funcionan estos modelos, si esta infraestructura técnica se puede aplicar a otros dominios y cómo trazamos la línea entre la IA y la creatividad humana.
P: Las imágenes generadas por IA utilizan los llamados modelos de «difusión estable» para transformar palabras en imágenes sorprendentes en solo unos momentos. Pero por cada imagen utilizada, suele haber un ser humano detrás de ella. Entonces, ¿cuál es la línea entre la IA y la creatividad humana? ¿Cómo funcionan realmente estos modelos?
A: Imagina todas las imágenes que podrías obtener de la búsqueda de Google y los patrones que vienen con ella. Esa es la dieta con la que se alimentan estos modelos. Están capacitados con todas estas imágenes y sus subtítulos para producir imágenes que se asemejan a los miles de millones de imágenes que han visto en Internet.
Digamos que una modelo ha visto muchas fotos de perros. Está entrenado para que, al recibir un mensaje de texto similar a «perro», pueda producir una foto que se parece mucho a las muchas fotos de perros que has visto antes. Bueno, metodológicamente, la forma en que todo esto funciona se remonta a una clase muy antigua de modelos llamados «modelos basados en energía» que surgieron en los años 70 u 80.
En los modelos basados en energía, se construye un paisaje energético sobre imágenes que se utiliza para simular la disipación física para generar imágenes. Si deja caer un punto de tinta en agua y termina disolviéndose, por ejemplo, obtendrá esta textura uniforme. Sin embargo, si intenta revertir este proceso de disolución, recuperará gradualmente el punto original de tinta en el agua. O digamos que tienes esta torre de bloques muy complicada y cuando la golpeas con una pelota se derrumba en un montón de bloques. Esta pila de bloques está entonces muy desordenada y realmente no tiene mucha estructura. Para revivir la torre, puede intentar invertir este proceso de plegado para crear su pila original de bloques.
La forma en que estos modelos generativos crean imágenes es muy similar cuando inicialmente tienes esta imagen realmente agradable, donde comienzas con este ruido aleatorio y básicamente aprendes cómo simular el proceso, cómo simular que el proceso de caminar se invierte de el ruido vuelve a su imagen original, donde intenta refinar iterativamente esa imagen para hacerla más y más realista.
En cuanto al límite entre la IA y la creatividad humana, estos modelos realmente están entrenados en la creatividad humana. Internet ofrece todo tipo de pinturas e imágenes que la gente ya ha creado en el pasado. Estos modelos están capacitados para recapitular y generar las imágenes publicadas en la web. Como resultado, estos modelos tienden a parecerse a cristalizaciones de aquello en lo que los humanos han estado gastando su creatividad durante cientos de años.
Al mismo tiempo, debido a que estos modelos están entrenados en lo que los humanos han diseñado, pueden producir obras de arte muy similares a las que los humanos hicieron en el pasado. Puede encontrar patrones en el arte que la gente ha hecho, pero es mucho más difícil para estos modelos crear fotos creativas por sí mismos.
Tratar de escribir un mensaje como «arte abstracto» o «arte único» o algo así no comprende realmente el aspecto creativo del arte humano. Más bien, los modelos recapitulan, por así decirlo, lo que la gente ha hecho en el pasado, en lugar de crear un arte fundamentalmente nuevo y creativo.
Debido a que estos modelos están entrenados con una gran cantidad de imágenes de Internet, es probable que muchas de estas imágenes tengan derechos de autor. No sabes exactamente qué está obteniendo el modelo cuando genera nuevas imágenes, por lo que la gran pregunta es cómo saber si el modelo está usando imágenes con derechos de autor. Si el modelo depende en cierto sentido de algunas imágenes con derechos de autor, ¿tienen esas nuevas imágenes derechos de autor? Esa es otra pregunta a responder.
P: ¿Crees que las imágenes generadas por modelos de difusión codifican algún tipo de comprensión sobre mundos naturales o físicos, ya sean dinámicos o geométricos? ¿Hay esfuerzos para «enseñar» a los generadores de imágenes los conceptos básicos del universo que los bebés aprenden tan temprano?
A: ¿Entienden, en código, alguna comprensión de los mundos natural y físico? Definitivamente lo creo. Si le pide a un modelo que genere una configuración estable de bloques, definitivamente generará una configuración estable de bloques. Cuando lo dices creas una configuración inestable de bloques, se ve muy inestable. O si dices «un árbol junto a un lago» puede generar algo así.
En cierto modo, estos modelos parecen haber capturado una gran cantidad de sentido común. Pero el problema, que todavía nos mantiene muy lejos de comprender verdaderamente el mundo natural y físico, es que cuando intentas crear combinaciones raras de palabras que tú o yo podemos imaginar muy fácilmente en nuestro trabajo, estos modelos no pueden.
Por ejemplo, si dices «Pon un tenedor en un plato», sucede todo el tiempo. Si le pide al modelo que genere esto, puede hacerlo fácilmente. Una vez más, si dices: «Pon un plato en un tenedor», podemos imaginar fácilmente cómo se vería. Pero si coloca esto en uno de estos modelos grandes, nunca obtendrá un plato en un tenedor. En cambio, obtienen un tenedor en un plato, ya que los modelos aprenden a recapitular todas las imágenes en las que fueron entrenados. No puede generalizar muy bien a combinaciones de palabras que no ha visto.
Un ejemplo bastante conocido es un astronauta montando a caballo, lo que el modelo puede hacer con facilidad. Pero cuando dices que un caballo monta a un astronauta, todavía crea una persona montando a caballo. Parece que estos modelos capturan muchas correlaciones en los conjuntos de datos en los que están entrenados, pero en realidad no capturan los mecanismos causales subyacentes del mundo.
Otro ejemplo de uso común son las descripciones textuales muy complicadas, como un objeto a la derecha de otro, el tercer objeto al frente y un tercero o cuarto volando. Realmente solo es capaz de satisfacer quizás uno o dos de los objetos. Esto podría deberse en parte a los datos de entrenamiento, ya que rara vez hay etiquetas muy complicadas, pero también podría indicar que estos modelos no están muy estructurados. Como puede imaginar, con indicaciones de lenguaje natural muy complicadas, no hay forma de que el modelo pueda representar con precisión todos los detalles de los componentes.
P: Recientemente desarrollaron un nuevo método que utiliza múltiples modelos para crear imágenes más complejas con una mejor comprensión del arte generativo. ¿Existen aplicaciones potenciales de este marco fuera de los dominios de imagen o texto?
A: Una de las limitaciones de estos modelos realmente nos inspiró. Si le das a estos modelos descripciones de escenas muy complicadas, en realidad no podrán generar imágenes coincidentes correctamente.
Una idea es que, dado que es un modelo único con un gráfico computacional fijo, lo que significa que solo puede usar una cantidad fija de cómputo para generar una imagen, si recibe un mensaje extremadamente complicado, no hay forma de que pueda usar más potencia computacional. , para generar la imagen.
Si le doy a un ser humano una descripción de una escena de, digamos, 100 líneas de largo en lugar de una escena de una línea, un artista humano puede dedicar mucho más tiempo a la primera. Estos modelos realmente no tienen la sensibilidad para hacerlo. Por lo tanto, le sugerimos que si tiene indicaciones muy complicadas, puede componer muchos modelos independientes diferentes y hacer que cada modelo individual represente una parte de la escena que desea describir.
Descubrimos que esto permite que nuestro modelo cree escenas más complicadas, o que crean con mayor precisión diferentes aspectos de la escena juntos. Además, este enfoque se puede aplicar ampliamente a una variedad de dominios diferentes. De hecho, mientras que la generación de imágenes es probablemente la aplicación más exitosa en este momento, los modelos generativos han visto todo tipo de aplicaciones en una variedad de campos. Puede usarlos para crear diferentes comportamientos de robots, sintetizar formas 3D, proporcionar una mejor comprensión de la escena o diseñar nuevos materiales. Posiblemente podría reunir varios factores deseados para crear exactamente el material que necesita para una aplicación específica.
Una cosa que nos interesa mucho es la robótica. De la misma manera que puede generar diferentes imágenes, también puede generar diferentes trayectorias de robot (ruta y horario), y al componer diferentes modelos, puede generar trayectorias con diferentes combinaciones de capacidades. Además, si tengo especificaciones de lenguaje natural para saltar en lugar de evitar un obstáculo, podría juntar estos modelos y luego generar trayectorias robóticas que puedan saltar y evitar un obstáculo.
De manera similar, cuando queremos diseñar proteínas, podemos especificar diferentes funciones o aspectos, de forma análoga a cómo usamos el lenguaje para especificar el contenido de las imágenes, con descripciones similares a las del lenguaje, como la naturaleza o la funcionalidad de la proteína. Luego podríamos juntarlos para crear nuevas proteínas que potencialmente puedan realizar todas esas funciones dadas.
También exploramos el uso de modelos de difusión en la generación de formas 3D, donde puede usar este enfoque para generar y diseñar activos 3D. Por lo general, el diseño de activos 3D es un proceso muy complicado y laborioso. Juntar diferentes modelos hace que sea mucho más fácil generar formas como «Quiero una forma 3D de cuatro patas con este estilo y altura», lo que podría automatizar partes del diseño de activos 3D.
[ad_2]