Los avances en la visión artificial y el procesamiento del lenguaje natural continúan abriendo nuevas oportunidades para explorar los miles de millones de imágenes disponibles en sitios web públicos y de búsqueda. Las herramientas de búsqueda visual de hoy le permiten buscar usando su cámara, voz, texto, imágenes o múltiples modalidades a la vez. Sin embargo, sigue siendo difícil introducir conceptos subjetivos como tonos visuales o estados de ánimo en los sistemas actuales. Es por eso que trabajamos con artistas, fotógrafos e investigadores de imágenes para explorar cómo el aprendizaje automático (ML) podría permitir a los humanos usar consultas expresivas como una forma de explorar conjuntos de datos visualmente.
Hoy presentamos Mood Board Search, una nueva herramienta de investigación impulsada por ML que utiliza paneles de estado de ánimo como una consulta para colecciones de imágenes. Esto permite a las personas definir y evocar conceptos visuales en sus propios términos. La búsqueda de Moodboard puede ser útil para búsquedas subjetivas como «pacífico» o para palabras e imágenes individuales que pueden no ser lo suficientemente específicas como para arrojar resultados útiles en una búsqueda estándar como «detalles abstractos en escenas pasadas por alto» o «colores vivos». Paleta que se siente en parte memoria, en parte sueño”. Desarrollamos y continuaremos desarrollando esta herramienta de investigación en línea con nuestros principios de IA.
Buscar con tableros de humor
Con Mood Board Search, nuestro objetivo es diseñar una interfaz flexible y accesible para que las personas sin experiencia en ML puedan entrenar una computadora para reconocer un concepto visual tal como lo ven. La interfaz de la herramienta está inspirada en los tableros de humor, que son comúnmente utilizados por personas en campos creativos para transmitir la «sensación» de una idea utilizando colecciones de material visual.
![]() |
Mood Board Search permite a los usuarios entrenar una computadora para reconocer conceptos visuales en colecciones de imágenes. |
Primero, simplemente arrastre y suelte una pequeña cantidad de imágenes que representen la idea que desea transmitir. La búsqueda de tableros de inspiración devuelve los mejores resultados cuando las imágenes tienen una calidad visual constante, por lo que es más probable que los resultados sean relevantes con tableros de inspiración que tienen similitudes visuales en color, patrón, textura o composición.
También es posible señalar qué imágenes son más importantes para un concepto visual al aumentar o reducir el peso de las imágenes, o agregar imágenes que representen lo opuesto al concepto. Luego, los usuarios pueden examinar y revisar los resultados de la búsqueda para comprender qué parte de una imagen se ajusta mejor al concepto visual. modo de enfoque hace esto revelando un cuadro delimitador alrededor de parte de la imagen mientras Cosecha de IA interviene directamente y facilita llamar la atención sobre nuevas composiciones.
![]() |
Interacciones admitidas, como Cosecha de IApermite a los usuarios ver qué parte de una imagen se ajusta mejor a su concepto visual. |
Impulsado por vectores de activación de concepto (CAV)
Mood Board Search aprovecha modelos de visión por computadora preentrenados como GoogLeNet y MobileNet y un enfoque de aprendizaje automático llamado Vectores de activación de conceptos (CAV).
Los CAV son una forma en que las máquinas representan imágenes (lo que entendemos) usando números o direcciones en una red neuronal sala de empotrar (que se puede considerar como lo que entienden las máquinas). Los CAV se pueden usar como parte de una técnica, Pruebas con CAV (TCAV), para cuantificar el grado en que un concepto personalizado es importante para un resultado de clasificación; por ejemplo, qué tan sensible es una predicción de «cebra» a la presencia de rayas. Este es un enfoque de investigación que publicamos como código abierto en 2018 y, desde entonces, el trabajo se ha aplicado ampliamente a aplicaciones médicas y científicas para desarrollar aplicaciones de aprendizaje automático que pueden proporcionar mejores explicaciones de lo que ven las máquinas. Puede obtener más información sobre la incrustación de vectores en general en esta publicación de blog de Google AI y sobre nuestro enfoque para trabajar con TCAV en el discurso de apertura de Been Kim en ICLR.
En Mood Board Search, usamos CAV para determinar la sensibilidad de un modelo a un moodboard creado por el usuario. En otras palabras, cada tablero de humor crea un CAV (una dirección en el espacio de incrustación) y la herramienta busca un conjunto de datos de imágenes y muestra las imágenes que se acercan más al CAV. Sin embargo, la herramienta va un paso más allá al segmentar cada imagen en el conjunto de datos de 15 maneras diferentes para descubrir tantas composiciones relevantes como sea posible. Este es el enfoque detrás de funciones como el modo de enfoque y AI Crop.
![]() |
Tres artistas han creado conceptos visuales para compartir su perspectiva, presentados aquí en una aplicación experimental del estudio de invención de diseño Nord Projects. |
Debido a que los vectores incrustados se pueden aprender y reutilizar en todos los modelos, las herramientas como la búsqueda de moodboard pueden ayudarnos a expresar nuestra perspectiva a otras personas. Las primeras colaboraciones con comunidades creativas han resultado valiosas porque pueden crear y compartir experiencias subjetivas, lo que genera la sensación de poder «salir de cámaras de eco visualmente similares» o «ver el mundo a través de los ojos de otra persona». Incluso una desalineación entre el modelo y la comprensión humana de un concepto a menudo generaba conexiones inesperadas e inspiradoras para los empleados. En conjunto, estos resultados apuntan a nuevas formas de diseñar sistemas de aprendizaje automático colaborativo que abarquen la subjetividad personal y colectiva.
Conclusiones y trabajo futuro
Hoy compartimos el código para Mood Board Search, que incluye tres conceptos visuales creados por nuestros colaboradores y una biblioteca Python de Mood Board Search, para que los usuarios puedan llevar el poder de los CAV directamente a sus propios sitios web y aplicaciones. Aunque estas herramientas son prototipos en etapa inicial, creemos que esta capacidad puede tener una amplia gama de aplicaciones, desde examinar colecciones desorganizadas de imágenes hasta externalizar vistas de artefactos colaborativos y compartibles. Una aplicación experimental del estudio de diseño Nord Projects, creada con Mood Board Search, ya está explorando las posibilidades de ejecutar CAV en tiempo real en la cámara. En el trabajo futuro, planeamos usar Mood Board Search para conocer nuevas formas de colaboración hombre-máquina y ampliar los modelos y entradas de ML, como texto y audio, para permitir descubrimientos subjetivos aún más profundos, independientemente del medio.
Si está interesado en hacer una demostración de este trabajo para su equipo u organización, envíenos un correo electrónico a cav-experiments-support@google.com.
Gracias
Este blog presenta investigaciones de (en orden alfabético): Kira Awadalla, Been Kim, Eva Kozanecka, Alison Lentz, Alice Moloney, Emily Reif y Oliver Siy, en colaboración con el estudio de invención de diseño Nord Projects. Nos gustaría agradecer a nuestra coautora Eva Kozanecka, a nuestros colaboradores artísticos Alexander Etchells, Tom Hatton, Rachel Maggart y al equipo de imágenes de la Biblioteca Británica por su participación en las vistas previas beta., y Blaise Agüera y Arcas, Jess Holbrook, Fernanda Viegas y Martin Wattenberg por su apoyo a este proyecto de investigación.