Si la visión por computadora funciona más como un cerebro, ve más como los humanos

[ad_1]

Desde cámaras hasta vehículos autónomos, muchas de las tecnologías actuales se basan en la inteligencia artificial para extraer significado de la información visual. La tecnología de IA actual se basa en redes neuronales artificiales en su núcleo, y la mayoría de las veces podemos confiar en que estos sistemas de visión por computadora de IA ven las cosas como nosotros, pero a veces fallan. Según científicos del MIT e IBM, una forma de mejorar la visión por computadora es ordenar a las redes neuronales artificiales de las que dependen que imiten intencionadamente la forma en que la red neuronal biológica del cerebro procesa las imágenes visuales.

Investigadores dirigidos por el profesor del MIT James DiCarlo, director de Quest for Intelligence en el MIT y miembro del Laboratorio de IA Watson del MIT-IBM, hicieron un modelo de visión por computadora más robusto entrenándolo para que pareciera una parte del cerebro que funciona como los humanos y otros primates. dependen del reconocimiento de objetos. En mayo de este año, en la Conferencia Internacional sobre Representaciones del Aprendizaje, el equipo informó que cuando entrenaron una red neuronal artificial utilizando patrones de actividad neuronal en la corteza temporal inferior (TI) del cerebro, la red neuronal artificial fue capaz de identificar objetos en imágenes de forma más sólida que un modelo que carecía de este entrenamiento neuronal. Y las interpretaciones de las imágenes por parte del modelo coincidían más estrechamente con lo que veían los humanos, incluso si las imágenes tenían distorsiones menores que dificultaban la tarea.

Comparación de circuitos neuronales.

Muchas de las redes neuronales artificiales utilizadas para la visión por computadora ya se parecen a los complejos circuitos cerebrales que procesan la información visual en humanos y otros primates. Al igual que el cerebro, utilizan unidades similares a neuronas que trabajan juntas para procesar información. A medida que se les entrena para realizar una tarea específica, estos componentes de múltiples capas trabajan juntos, de manera incremental, para procesar la información visual para completar la tarea, determinando, por ejemplo, si una imagen representa un oso, un automóvil o un árbol.

DiCarlo y otros han descubierto previamente que cuando estos sistemas de visión por computadora de aprendizaje profundo encuentran formas eficientes de resolver problemas visuales, surgen circuitos artificiales que funcionan de manera similar a los circuitos neuronales que procesan la información visual en nuestro propio cerebro. Es decir, resultan ser modelos científicos sorprendentemente buenos de los mecanismos neuronales que subyacen a la visión en primates y humanos.

Esta similitud ayuda a los neurocientíficos a profundizar su comprensión del cerebro. Al mostrar cómo se puede procesar la información visual para dar sentido a las imágenes, los modelos informáticos proponen hipótesis sobre cómo el cerebro podría realizar la misma tarea. A medida que los desarrolladores continúan perfeccionando los modelos de visión por computadora, los neurocientíficos han encontrado nuevas ideas para explorar en su propio trabajo.

“A medida que los sistemas de visión funcionan mejor en el mundo real, algunos de ellos están demostrando ser más humanos en su procesamiento interno. Esto es útil desde una perspectiva de biología cognitiva», dice DiCarlo, quien también es profesor de ciencias cognitivas y del cerebro e investigador en el Instituto McGovern para la Investigación del Cerebro.

Desarrollo de una IA más parecida al cerebro

Aunque su potencial es prometedor, los sistemas de visión por computadora aún no son modelos perfectos de la visión humana. DiCarlo teorizó que una forma de mejorar la visión por computadora podría ser incorporar ciertas funciones similares al cerebro en estos modelos.

Para probar esta idea, él y sus colaboradores construyeron un modelo de visión por computadora utilizando datos neuronales previamente recopilados de las neuronas que procesan la visión en la corteza TI de los monos (una parte importante de la vía visual ventral de los primates involucrada en el reconocimiento de los objetos involucrados) mientras los animales miraban. en diferentes imágenes. Más específicamente, Joel Dapello, estudiante graduado de la Universidad de Harvard y ex pasante en el Laboratorio de IA Watson del MIT-IBM; y Kohitij Kar, profesor asistente y catedrático de investigación de Canadá (neurociencia visual) en la Universidad de York y académico visitante en el MIT; en colaboración con David Cox, vicepresidente de modelos de IA de IBM Research y director de IBM del MIT-IBM Watson AI Lab; y otros investigadores de IBM Research y el MIT pidieron a una red neuronal artificial que emulara el comportamiento de estas neuronas de procesamiento de la visión de primates mientras la red aprendía a identificar objetos en una tarea de visión por computadora estándar.

«De hecho, le dijimos a la red: ‘Por favor, resuelva esta tarea estándar de visión por computadora, pero también asegúrese de que la función de una de sus capas ‘neurales’ internas simuladas sea lo más similar posible a la función de la capa neuronal biológica correspondiente. capa. ‘», explica DiCarlo. «Le pedimos que hiciera ambas cosas lo mejor posible.» Esto obligó a los circuitos neuronales artificiales a encontrar una forma diferente de procesar la información visual que el enfoque estándar de visión por computadora, dice.

Después de entrenar el modelo artificial con datos biológicos, el equipo de DiCarlo comparó su actividad con un modelo de red neuronal de tamaño similar entrenado sin datos neuronales, utilizando el enfoque estándar de visión por computadora. Descubrieron que la nueva capa de TI del modelo biológicamente informado, según las instrucciones, coincidía mejor con los datos de TI neuronales. Es decir, para cada cuadro probado, la población de neuronas TI artificiales en el modelo respondió de manera más similar a la población correspondiente de neuronas TI biológicas.

Los investigadores también descubrieron que, aunque el modelo nunca había visto datos de ese animal, e incluso cuando esta comparación se basó en las respuestas de TI de ese mono a otras nuevas, el modelo de TI también coincidía mejor con los datos de TI neuronales de las imágenes de otro mono que se evaluaron. Esto sugirió que el nuevo modelo computacional «alineado con los nervios» del equipo puede ser un modelo mejorado de la función neurobiológica de la corteza TI de los primates, un hallazgo interesante dado que no se sabía previamente cuántos datos neuronales se pueden capturar actualmente en el sistema visual de los primates. es capaz de controlar directamente el desarrollo del modelo.

Utilizando su nuevo modelo informático, el equipo preguntó si el procedimiento de alineación neuronal de TI también daba lugar a cambios en el rendimiento conductual general del modelo. De hecho, descubrieron que el modelo alineado neuronalmente tenía un comportamiento más parecido al humano: tendía a tener éxito en categorizar correctamente los objetos en imágenes cuando los humanos lo hacían, y tendía a fallar cuando los humanos fallaban.

Ataques enemigos

El equipo también descubrió que el modelo alineado neuronalmente era más resistente a los «ataques adversarios» que los desarrolladores utilizan para probar la visión por computadora y los sistemas de inteligencia artificial. En la visión por computadora, los ataques de los adversarios provocan pequeñas distorsiones en las imágenes con el objetivo de engañar a una red neuronal artificial.

“Supongamos que tienes una imagen que identifica al modelo como un gato. Como conoces el funcionamiento interno del modelo, puedes hacer cambios muy pequeños en la imagen que de repente hagan que el modelo piense que ya no es un gato”, explica DiCarlo.

Estas ligeras distorsiones no suelen engañar a los humanos, pero los modelos de visión por computadora luchan con estos cambios. Si miras al gato ligeramente distorsionado, aún así podrás informar de forma fiable y clara que es un gato. Sin embargo, es más probable que los modelos tradicionales de visión por computadora confundan al gato con un perro o incluso con un árbol.

«Debe haber algunas diferencias internas en la forma en que nuestro cerebro procesa las imágenes que hacen que nuestra visión sea más resistente a tales ataques», dice DiCarlo. De hecho, el equipo descubrió que el modelo se volvía más robusto cuando se le daba más alineación neuronal y se identificaban correctamente más imágenes frente a los ataques del adversario. El modelo aún podría ser engañado por «ataques» más fuertes, pero también los humanos, dice DiCarlo. Su equipo ahora está investigando los límites de la robustez del enemigo en humanos.

Hace unos años, el equipo de DiCarlo descubrió que también podían mejorar la resistencia de un modelo a los ataques del adversario diseñando la primera capa de la red artificial para imitar la capa de procesamiento visual inicial en el cerebro. Un siguiente paso importante es combinar estos enfoques para crear nuevos modelos que estén alineados neuronalmente en múltiples niveles de procesamiento visual simultáneamente.

El nuevo trabajo es una prueba más de que un intercambio de ideas entre la neurociencia y la informática puede impulsar el progreso en ambos campos. «Todo el mundo tiene algo del apasionante círculo virtuoso entre la inteligencia natural/biológica y la inteligencia artificial», afirma DiCarlo. «En este caso, los investigadores de visión por computadora e inteligencia artificial obtendrán nuevas formas de lograr solidez, y los neurocientíficos y científicos cognitivos obtendrán modelos mecanicistas más precisos de la visión humana».

Este trabajo fue apoyado por el MIT-IBM Watson AI Lab, Semiconductor Research Corporation, la Agencia de Proyectos de Investigación de Defensa de EE. UU., la Beca MIT Shoemaker, la Oficina de Investigación Naval de EE. UU., la Fundación Simons y el Programa de Cátedra de Investigación de Canadá.

[ad_2]

Subscribe to Updates

What's Hot

Si la visión por computadora funciona más como un cerebro, ve más como los humanos | Noticias del MIT

Related Posts