[ad_1]
La visión periférica permite a las personas ver formas que no están directamente en nuestra línea de visión, aunque con menos detalle. Esta capacidad amplía nuestro campo de visión y puede resultar de ayuda en muchas situaciones, como por ejemplo detectar un vehículo que se acerca a nuestro coche por el lateral.
A diferencia de los humanos, la IA no tiene visión periférica. Equipar modelos de visión por computadora con esta capacidad podría ayudar a detectar peligros que se aproximan de manera más efectiva o predecir si un conductor humano notaría un objeto que se aproxima.
Para dar un paso en esta dirección, los investigadores del MIT han desarrollado un conjunto de datos de imágenes que les permite simular la visión periférica en modelos de aprendizaje automático. Descubrieron que entrenar modelos con este conjunto de datos mejoraba la capacidad de los modelos para reconocer objetos en la periferia visual, aunque los modelos aún funcionaban peor que los humanos.
Sus resultados también mostraron que, a diferencia de los humanos, ni el tamaño de los objetos ni la cantidad de desorden visual en una escena tuvieron un fuerte impacto en el rendimiento de la IA.
“Aquí está pasando algo fundamental. Hemos probado muchos modelos diferentes, e incluso cuando los entrenamos, mejoran un poco, pero no se parecen mucho a los humanos. Entonces la pregunta es: ¿qué les falta a estos modelos?”, dice Vasha DuTell, investigadora postdoctoral y coautora de un artículo que detalla este estudio.
Responder a esta pregunta podría ayudar a los investigadores a desarrollar modelos de aprendizaje automático que puedan ver el mundo mejor que los humanos. Además de mejorar la seguridad del conductor, estos modelos también podrían utilizarse para desarrollar pantallas que sean más fáciles de leer para las personas.
Además, una comprensión más profunda de la visión periférica en los modelos de IA podría ayudar a los investigadores a predecir mejor el comportamiento humano, añade la autora principal Anne Harrington MEng ’23.
«Modelar la visión periférica puede ayudarnos a comprender las características de una escena visual que hacen que nuestros ojos se muevan para recopilar más información si realmente podemos capturar la esencia de lo que se representa en la periferia», explica.
Sus coautores incluyen a Mark Hamilton, estudiante de posgrado en ingeniería eléctrica e informática; Ayush Tewari, becario postdoctoral; Simon Stent, director de investigación del Instituto de Investigación Toyota; y los autores principales William T. Freeman, profesor Thomas y Gerd Perkins de Ingeniería Eléctrica e Informática y miembro del Laboratorio de Informática e Inteligencia Artificial (CSAIL); y Ruth Rosenholtz, científica investigadora senior de la División de Ciencias Cognitivas y del Cerebro y miembro de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.
“Cada vez que un ser humano interactúa con una máquina (un automóvil, un robot, una interfaz de usuario) es extremadamente importante comprender lo que la persona puede ver. La visión periférica desempeña un papel crucial en esta comprensión”, afirma Rosenholtz.
Simulación de visión periférica.
Extienda el brazo frente a usted y levante el pulgar; la pequeña área alrededor de la uña se verá desde la fóvea, la pequeña depresión en el centro de la retina que proporciona la visión más nítida. Todo lo demás que puedes ver está en tu periferia visual. Su corteza visual presenta una escena con menos detalles y confiabilidad cuanto más se aleja de este punto de enfoque nítido.
Muchos enfoques existentes para modelar la visión periférica en IA representan este deterioro del nivel de detalle al desenfocar los bordes de la imagen, pero la pérdida de información que ocurre en el nervio óptico y la corteza visual es mucho más compleja.
Para lograr un enfoque más preciso, los investigadores del MIT comenzaron con una técnica utilizada para modelar la visión periférica en humanos. Este método, conocido como modelo de mosaico de texturas, transforma imágenes para representar la pérdida visual de información de un ser humano.
Han modificado este modelo para que pueda transformar imágenes de forma similar, pero de una forma más flexible que no requiere saber de antemano hacia dónde dirigirá su mirada la persona o la IA.
«Esto nos permite modelar la visión periférica con tanta fidelidad como se hace en la investigación sobre la visión humana», dice Harrington.
Los investigadores utilizaron esta técnica modificada para generar un enorme conjunto de datos de imágenes transformadas que parecen más texturizadas en ciertas áreas para representar la pérdida de detalle que ocurre cuando un humano mira más hacia la periferia.
Luego utilizaron el conjunto de datos para entrenar múltiples modelos de visión por computadora y comparar su desempeño con el de los humanos en una tarea de reconocimiento de objetos.
“Tuvimos que ser muy inteligentes al configurar el experimento para poder probarlo también en los modelos de aprendizaje automático. «No queríamos tener que volver a entrenar a los modelos para que hicieran un trabajo de juguete para el que no estaban destinados», dice.
Actuación extraña
A los humanos y a los modelos se les mostraron pares de imágenes transformadas que eran idénticas excepto que en una imagen había un objeto objetivo en la periferia. Luego se pidió a cada participante que seleccionara la imagen que contenía el objeto objetivo.
“Lo que realmente nos sorprendió fue lo bien que las personas podían reconocer objetos en su periferia. Revisamos al menos 10 conjuntos diferentes de imágenes que eran demasiado fáciles. Tuvimos que utilizar objetos cada vez más pequeños”, añade Harrington.
Los investigadores descubrieron que entrenar modelos desde cero en su conjunto de datos resultó en mayores ganancias de rendimiento y mejoró su capacidad para detectar y reconocer objetos. El ajuste de un modelo con su conjunto de datos, un proceso que implica optimizar un modelo previamente entrenado para permitirle realizar una nueva tarea, dio como resultado menores ganancias de rendimiento.
Pero en cualquier caso, las máquinas no eran tan buenas como los humanos y eran particularmente malas para detectar objetos en la periferia distante. Su desempeño tampoco siguió los mismos patrones que los humanos.
“Esto podría sugerir que los modelos no utilizan el contexto de la misma manera que lo hacen los humanos para completar estas tareas de reconocimiento. La estrategia de los modelos podría ser diferente”, afirma Harrington.
Los investigadores planean investigar más a fondo estas diferencias, con el objetivo de encontrar un modelo que pueda predecir el desempeño humano en la periferia visual. Esto podría, por ejemplo, habilitar sistemas de inteligencia artificial que alerten a los conductores sobre peligros que tal vez no vean. También esperan inspirar a otros investigadores a realizar más estudios de visión por computadora utilizando su conjunto de datos disponible públicamente.
«Este trabajo es importante porque contribuye a nuestra comprensión de que, debido al número limitado de nuestros fotorreceptores, la visión periférica humana no debe verse simplemente como una visión empobrecida, sino más bien como una representación optimizada para realizar tareas del mundo real». consecuencia”, dice Justin Gardner, profesor asociado del Departamento de Psicología de la Universidad de Stanford, que no participó en este trabajo. «Además, el trabajo muestra que, a pesar de sus avances en los últimos años, los modelos de redes neuronales no pueden igualar el desempeño humano en este sentido, lo que debería conducir a que se realicen más investigaciones sobre IA para aprender de la neurociencia de la visión humana». asistida por la base de datos de imágenes que imitan la visión periférica humana proporcionada por los autores.»
Este trabajo cuenta con el apoyo parcial del Toyota Research Institute y la beca MIT CSAIL METEOR.
[ad_2]