[ad_1]
Imagínate mirar una calle muy transitada por unos momentos y luego intentar dibujar de memoria la escena que viste. La mayoría de las personas podrían dibujar las ubicaciones aproximadas de objetos clave como automóviles, personas y cruces de peatones, pero casi nadie puede dibujar cada detalle con una precisión de píxeles perfecta. Lo mismo ocurre con la mayoría de los algoritmos de visión por computadora modernos: son excelentes para capturar detalles finos de una escena, pero los pierden al procesar información.
Ahora, los investigadores del MIT han desarrollado un sistema llamado FeatUp que permite a los algoritmos capturar todos los detalles de alto y bajo nivel de una escena simultáneamente, casi como la cirugía ocular Lasik para visión por computadora.
A medida que las computadoras aprenden a “ver” mirando imágenes y videos, desarrollan “ideas” sobre lo que contiene una escena a través de las llamadas “características”. Para crear estas características, redes profundas y modelos de base visual dividen las imágenes en una cuadrícula de pequeños cuadrados y procesan estos cuadrados como un grupo para determinar qué sucede en una foto. Cada pequeño cuadrado normalmente consta de 16 a 32 píxeles, por lo que la resolución de estos algoritmos es significativamente menor que la de las imágenes con las que trabajan. Al intentar resumir y comprender fotografías, los algoritmos pierden mucha nitidez de los píxeles.
El algoritmo FeatUp puede detener esta pérdida de información y aumentar la resolución de cualquier red profunda sin comprometer la velocidad o la calidad. Esto permite a los investigadores mejorar rápida y fácilmente la resolución de algoritmos nuevos o existentes. Por ejemplo, imaginemos intentar interpretar las predicciones de un algoritmo de detección de cáncer de pulmón para localizar el tumor. La aplicación de FeatUp antes de interpretar el algoritmo utilizando un método como Class Activation Maps (CAM) puede proporcionar una vista mucho más detallada (16-32x) de dónde puede ubicarse el tumor según el modelo.
Además de ayudar a los profesionales a comprender sus modelos, FeatUp puede mejorar una serie de tareas diferentes, como la detección de objetos, la segmentación semántica (asignar etiquetas a píxeles en una imagen con etiquetas de objetos) y la estimación de profundidad. Esto se logra proporcionando capacidades más precisas y de alta resolución, que son fundamentales para desarrollar aplicaciones de visión artificial que van desde la conducción autónoma hasta las imágenes médicas.
“La esencia de toda visión por computadora radica en estas capacidades profundas e inteligentes que emergen de las profundidades de las arquitecturas de aprendizaje profundo. El gran desafío de los algoritmos modernos es que reducen imágenes grandes a cuadrículas muy pequeñas de características «inteligentes», obteniendo conocimientos inteligentes pero perdiendo los detalles más finos», dice Mark Hamilton, candidato doctoral del MIT en ingeniería eléctrica e informática en MIT Computer Science. y Socio del Laboratorio de Inteligencia Artificial (CSAIL) y coautor principal de un artículo sobre el proyecto. “FeatUp ayuda a lograr lo mejor de ambos mundos: representaciones muy inteligentes con la resolución de la imagen original. Estas capacidades de alta resolución aumentan significativamente el rendimiento en un espectro de tareas de visión por computadora, desde mejorar la detección de objetos y la predicción de profundidad hasta proporcionar una comprensión más profunda del proceso de toma de decisiones de su red a través de análisis de alta resolución”.
Renacimiento de la disolución
A medida que estos grandes modelos de IA se generalizan, existe una necesidad cada vez mayor de explicar qué hacen, qué miran y qué piensan.
Pero, ¿cómo puede exactamente FeatUp descubrir estos detalles tan finos? Curiosamente, el secreto está en el temblor y bamboleo de las imágenes.
Específicamente, FeatUp realiza ajustes menores (como mover la imagen unos pocos píxeles hacia la izquierda o hacia la derecha) y observa cómo responde un algoritmo a estos movimientos menores de la imagen. Esto da como resultado cientos de mapas de características profundas, todos ligeramente diferentes, que se pueden combinar en un único conjunto de características profundas nítido y de alta resolución. «Imaginamos que hay algunas características de alta resolución y que si las agitamos y las difuminamos, coincidirán con todas las características originales de menor resolución de las imágenes borrosas». Nuestro objetivo es utilizar este «juego» para aprender cómo » Podemos refinar las funciones de baja resolución para convertirlas en funciones de alta resolución para saber qué tan bien lo estamos haciendo”, dice Hamilton. Esta metodología es similar a la forma en que los algoritmos pueden crear un modelo 3D a partir de múltiples imágenes 2D al garantizar que el objeto 3D predicho coincida con todas las fotos 2D utilizadas para crearlo. En el caso de FeatUp, predicen un mapa de características de alta resolución que coincide con cualquier mapa de características de baja resolución creado al alterar la imagen original.
El equipo descubrió que las herramientas estándar disponibles en PyTorch no eran suficientes para sus necesidades, por lo que, en busca de una solución rápida y eficiente, introdujeron un nuevo tipo de capa de red profunda. Su capa personalizada, una operación especial de muestreo bilateral conjunto, fue más de 100 veces más eficiente que una simple implementación en PyTorch. El equipo también demostró que esta nueva capa puede mejorar una variedad de algoritmos diferentes, incluida la segmentación semántica y la predicción de profundidad. Esta capa mejoró la capacidad de la red para procesar y comprender detalles de alta resolución, proporcionando un aumento significativo del rendimiento de cualquier algoritmo que la utilizara.
“Otra aplicación es la llamada recuperación de objetos pequeños, en la que nuestro algoritmo permite una localización precisa de los objetos. Por ejemplo, incluso en escenas callejeras abarrotadas, los algoritmos enriquecidos con FeatUp pueden detectar objetos diminutos como conos de tráfico, reflectores, luces y baches donde fallan sus primos de baja resolución. Esto demuestra su capacidad para convertir características burdas en señales finamente detalladas”, dice Stephanie Fu ’22, MNG ’23, estudiante de doctorado en la Universidad de California, Berkeley y otra coautora principal del nuevo artículo FeatUp. “Esto es particularmente importante para tareas en las que el tiempo es crítico, como localizar una señal de tráfico en una carretera concurrida en un vehículo autónomo. Esto no sólo puede mejorar la precisión de tales tareas al convertir conjeturas aproximadas en localizaciones precisas, sino que también podría hacer que estos sistemas sean más confiables, interpretables y dignos de confianza”.
¿Qué sigue?
De cara a futuros esfuerzos, el equipo enfatiza la adopción potencialmente amplia de FeatUp dentro de la comunidad de investigación y más allá, similar a las prácticas de aumento de datos. «El objetivo es hacer de este método una herramienta fundamental para el aprendizaje profundo y enriquecer los modelos para percibir el mundo con mayor detalle, sin la ineficiencia computacional del procesamiento tradicional de alta resolución», dice Fu.
«FeatUp representa un avance maravilloso para hacer que las representaciones visuales sean realmente útiles al producirlas con resolución de imagen completa», dice Noah Snavely, profesor de informática en la Universidad de Cornell que no participó en la investigación. «Las representaciones visuales aprendidas se han vuelto realmente buenas en los últimos años, pero casi siempre se crean con una resolución muy baja: puedes insertar una bonita foto de resolución completa y lo que obtienes es una pequeña cuadrícula de características del tamaño de un sello postal». un problema si desea utilizar estas funciones en aplicaciones que producen resultados de resolución completa. FeatUp resuelve creativamente este problema al combinar ideas clásicas de súper resolución con enfoques de aprendizaje modernos, lo que da como resultado hermosos mapas de características de alta resolución”.
“Esperamos que esta sencilla idea pueda encontrar una aplicación generalizada. «Proporciona versiones de alta resolución de análisis de imágenes que anteriormente pensábamos que solo podían ser de baja resolución», dice el autor principal William T. Freeman, profesor de ingeniería eléctrica e informática del MIT y miembro de CSAIL.
A los autores principales, Fu y Hamilton, se unen los estudiantes graduados del MIT Laura Brandt SM ’21 y Axel Feldmann SM ’21, y Zhoutong Zhang SM ’21, PhD ’22, todos empleados actuales o anteriores de MIT CSAIL. Su investigación cuenta con el apoyo parcial de una beca de investigación para graduados de la Fundación Nacional de Ciencias., de la Fundación Nacional de Ciencias y la Oficina del Director de Inteligencia Nacional, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU. El grupo presentará su trabajo en la Conferencia Internacional sobre Representaciones del Aprendizaje en mayo.
[ad_2]