[ad_1]
Cuando las personas miran fotografías y recurren a sus experiencias pasadas, a menudo pueden percibir la profundidad en imágenes que son perfectamente planas. Sin embargo, lograr que las computadoras hagan lo mismo ha demostrado ser todo un desafío.
El problema es difícil por varias razones, una de las cuales es que la información se pierde inevitablemente cuando una escena que se desarrolla en tres dimensiones se reduce a una representación bidimensional (2D). Hay algunas estrategias establecidas para recuperar información 3D de múltiples imágenes 2D, pero cada una tiene algunas limitaciones. Un nuevo enfoque llamado «correspondencia virtual», desarrollado por investigadores del MIT y otras instituciones, puede sortear algunas de estas deficiencias y tener éxito en los casos en que fallan los métodos tradicionales.
![Miniatura de vídeo](https://i1.ytimg.com/vi/LSBz9-TibAM/maxresdefault.jpg)
reproduce el video
Los métodos existentes que reconstruyen escenas 3D a partir de imágenes 2D se basan en imágenes que contienen algunas de las mismas características. La correspondencia virtual es un método de reconstrucción 3D que funciona incluso con imágenes tomadas desde puntos de vista extremadamente diferentes que no comparten las mismas características.
El enfoque estándar, llamado Estructura a partir del movimiento, se basa en un aspecto clave de la visión humana. Debido a que nuestros ojos están separados, cada uno ofrece vistas ligeramente diferentes de un objeto. Se puede formar un triángulo cuyos lados consisten en el segmento de línea que conecta los dos ojos más los segmentos de línea que conectan cada ojo con un punto común en el objeto en cuestión. Conociendo los ángulos en el triángulo y la distancia entre los ojos, es posible determinar la distancia a ese punto utilizando geometría elemental, aunque el sistema visual humano, por supuesto, puede hacer estimaciones aproximadas de la distancia sin tener que realizar tediosos cálculos trigonométricos. La misma idea básica, la vista de triangulación o paralaje, ha sido utilizada por los astrónomos durante siglos para calcular la distancia a estrellas distantes.
La triangulación es un elemento clave de la estructura del movimiento. Suponga que tiene dos imágenes de un objeto, por ejemplo, una figura de conejo esculpida, una del lado izquierdo de la figura y la otra del lado derecho. El primer paso sería encontrar puntos o píxeles en la superficie del conejo que ambas imágenes tengan en común. A partir de ahí, un investigador podría determinar las «posturas» de las dos cámaras: las posiciones desde las que se tomaron las fotos y la dirección a la que apuntaba cada cámara. Conociendo la distancia entre las cámaras y su orientación, se puede triangular para calcular la distancia a un punto seleccionado en el conejo. Y si se identifican suficientes puntos comunes, podría ser posible obtener una idea detallada de la forma general del objeto (o «conejo»).
Se han logrado avances significativos con esta técnica, comenta Wei-Chiu Ma, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT, «y la gente ahora está emparejando píxeles con una precisión cada vez mayor. Siempre que podamos observar el mismo punto o puntos en diferentes imágenes, podemos usar los algoritmos existentes para determinar las posiciones relativas entre las cámaras”. Sin embargo, el enfoque solo funciona si las dos imágenes se superponen significativamente. Cuando las imágenes de entrada tienen puntos de vista muy diferentes, y por lo tanto tienen poco en común, agrega: «El sistema puede fallar».
En el verano de 2020, Ma desarrolló una forma novedosa de hacer las cosas que podría ampliar en gran medida la gama de estructuras de movimiento. El MIT estaba cerrado en ese momento debido a la pandemia y Ma estaba en su casa en Taiwán, relajándose en el sofá. Mirando la palma de su mano, y particularmente las yemas de sus dedos, notó que podía ver claramente sus uñas, aunque no eran visibles para él.
Esa fue la inspiración para el concepto de correspondencia virtual que Ma prosiguió luego con su asesor Antonio Torralba, profesor e investigador de la EECS en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial, junto con Anqi Joyce Yang y Raquel Urtasun de la Universidad de Toronto y Shenlong Wang. de la Universidad de Illinois. «Queremos integrar el conocimiento y el razonamiento humanos en nuestros algoritmos 3D existentes», dice Ma, el mismo razonamiento que le permitió mirar hacia abajo con las yemas de los dedos y conjurar las uñas hacia el otro lado, el lado que no podía ver.
La estructura a partir del movimiento funciona cuando dos imágenes tienen puntos comunes, porque siempre se puede dibujar un triángulo que conecte las cámaras al punto común, ya partir de esto se puede obtener información de profundidad. La correspondencia virtual ofrece una manera de llevar las cosas más lejos. Supongamos nuevamente que se toma una foto del lado izquierdo de un conejo y se toma otra foto del lado derecho. La primera foto puede mostrar una mancha en la pata izquierda del conejo. Sin embargo, dado que la luz viaja en línea recta, uno podría usar el conocimiento general de la anatomía del conejo para saber dónde saldría un rayo de luz que va de la cámara a la pata al otro lado del conejo. Este punto puede ser visible en la otra imagen (tomada del lado derecho) y si es así podría usarse mediante triangulación para calcular distancias en la tercera dimensión.
En otras palabras, la correspondencia virtual permite tomar un punto de la primera imagen en el flanco izquierdo del conejo y conectarlo con un punto en el flanco derecho invisible del conejo. «El beneficio de hacer esto es que no necesita marcos superpuestos para continuar», señala Ma. «Al mirar a través del objeto y salir por el otro extremo, esta técnica ofrece puntos en común con los que trabajar que no estaban disponibles originalmente». Y de esta manera, se pueden eludir las limitaciones impuestas al método tradicional.
Uno podría preguntarse cuánto conocimiento previo se requiere para esto, porque si tuviera que saber de antemano la forma de todo lo que aparece en la imagen, no necesitaría ningún cálculo. El truco que usan Ma y sus colegas es usar ciertos objetos familiares en una imagen, como la forma humana, como una especie de «ancla», y han desarrollado métodos para usar nuestro conocimiento de la forma humana para ayudar a establecer poses de cámara y en algunos casos finaliza la profundidad de la imagen. Además, explica Ma, «el conocimiento previo y el sentido común integrados en nuestros algoritmos primero son capturados y codificados por redes neuronales».
El objetivo final del equipo es mucho más ambicioso, dice Ma. “Queremos construir computadoras que entiendan el mundo tridimensional tal como lo hacen las personas.” Este objetivo todavía está muy lejos de lograrse, admite. “Pero para ir más allá de donde estamos hoy y construir un sistema que se comporte como humanos, necesitamos un entorno más desafiante. En otras palabras, necesitamos desarrollar computadoras que no solo puedan interpretar imágenes fijas, sino que también comprendan videoclips cortos y, eventualmente, películas de larga duración”.
Una escena de la película Good Will Hunting muestra lo que está haciendo. El público ve a Matt Damon y Robin Williams desde atrás, sentados en un banco con vista a un estanque en el Public Garden de Boston. La siguiente toma, tomada desde el lado opuesto, presenta vistas frontales (aunque completamente vestidos) de Damon y Williams con un fondo completamente diferente. Cualquiera que vea la película sabrá de inmediato que son las mismas dos personas, aunque las dos tomas no tienen nada en común. Las computadoras aún no pueden dar ese salto conceptual, pero Ma y sus colegas están trabajando arduamente para hacer que estas máquinas sean más diestras y, al menos visualmente, más parecidas a nosotros.
El trabajo del equipo se presentará en la Conferencia sobre Visión por Computador y Reconocimiento de Patrones de la próxima semana.
[ad_2]