[ad_1]
Un vehículo autónomo debe detectar con rapidez y precisión los objetos que encuentra, desde una camioneta vacía estacionada en una esquina hasta un ciclista que acelera hacia una intersección que se aproxima.
Para hacer esto, el vehículo puede usar un poderoso modelo de visión por computadora para categorizar cada píxel en una imagen de alta resolución de esa escena para no perder de vista los objetos que pueden quedar oscurecidos en una imagen de menor calidad. Sin embargo, esta tarea, conocida como segmentación semántica, es compleja y requiere un enorme esfuerzo computacional cuando la imagen es de alta resolución.
Investigadores del MIT, el MIT-IBM Watson AI Lab y otros lugares han desarrollado un modelo de visión por computadora más eficiente que reduce significativamente la complejidad computacional de esta tarea. Su modelo puede realizar con precisión una segmentación semántica en tiempo real en un dispositivo con recursos de hardware limitados, como las computadoras a bordo que permiten a un vehículo autónomo tomar decisiones en fracciones de segundo.
Los modelos de segmentación semántica de última generación aprenden directamente la interacción entre cada par de píxeles de una imagen, por lo que sus cálculos crecen cuadráticamente a medida que aumenta la resolución de la imagen. Debido a esto, estos modelos, si bien son precisos, son demasiado lentos para procesar imágenes de alta resolución en tiempo real en un dispositivo periférico como un sensor o un teléfono móvil.
Los investigadores del MIT han diseñado un nuevo bloque de construcción para modelos de segmentación semántica que logra las mismas capacidades que estos modelos de última generación, pero sólo con complejidad computacional lineal y operaciones eficientes en hardware.
El resultado es una nueva línea de modelos de visión por computadora de alta resolución que funcionan hasta nueve veces más rápido que los modelos anteriores en un dispositivo móvil. Es importante destacar que esta nueva gama de modelos demostró una precisión igual o mejor que estas alternativas.
Esta técnica no sólo podría utilizarse para ayudar a los vehículos autónomos a tomar decisiones en tiempo real, sino que también podría mejorar la eficiencia de otras tareas de visión por ordenador de alta resolución, como la segmentación de imágenes médicas.
“Si bien los investigadores han estado utilizando transformadores de visión tradicionales durante algún tiempo y han producido resultados sorprendentes, también queremos que la gente preste atención al aspecto de eficiencia de estos modelos. Nuestro trabajo muestra que es posible reducir drásticamente el esfuerzo computacional para que esta segmentación de imágenes en tiempo real pueda realizarse localmente en un dispositivo”, dice Song Han, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), un miembro del MIT-IBM Watson AI Lab y autor principal del artículo que describe el nuevo modelo.
En el artículo cuenta con la ayuda del autor principal Han Cai, un estudiante de posgrado de EECS; Junyan Li, estudiante de la Universidad de Zhejiang; Muyan Hu, estudiante de la Universidad de Tsinghua; y Chuang Gan, investigador asociado senior en el Laboratorio de IA Watson del MIT-IBM. La investigación se presentará en la Conferencia Internacional sobre Visión por Computadora.
Una solución simplificada
Categorizar cada píxel en una imagen de alta resolución, que puede contener millones de píxeles, es una tarea difícil para un modelo de aprendizaje automático. Recientemente se ha puesto en práctica un nuevo y potente tipo de modelo conocido como Vision Transformer.
Los transformadores fueron diseñados originalmente para el procesamiento del lenguaje natural. En este contexto, codifican cada palabra de una oración como un token y luego crean un mapa de atención que captura las relaciones de cada token con todos los demás tokens. Este mapa de atención ayuda al modelo a comprender el contexto al hacer predicciones.
Utilizando el mismo concepto, un transformador de visión divide una imagen en campos de píxeles y codifica cada campo pequeño en un token antes de crear un mapa de atención. Al crear este mapa de atención, el modelo utiliza una función de similitud que aprende directamente la interacción entre cada par de píxeles. De esta manera, el modelo desarrolla el llamado campo receptivo global, lo que significa que puede acceder a todas las partes relevantes de la imagen.
Dado que una imagen de alta resolución puede contener millones de píxeles divididos en miles de parches, el mapa de atención rápidamente se vuelve enorme. Por esta razón, el esfuerzo computacional aumenta cuadráticamente a medida que aumenta la resolución de la imagen.
En su nueva serie de modelos llamada EfficientViT, los investigadores del MIT utilizaron un mecanismo más simple para construir el mapa de atención: reemplazaron la función de similitud no lineal con una función de similitud lineal. Esto les permite reorganizar el orden de las operaciones para reducir los cálculos generales sin cambiar la funcionalidad y perder el campo receptivo global. Con su modelo, el esfuerzo computacional para una predicción crece linealmente al aumentar la resolución de la imagen.
“Pero no existe nada gratis. La atención lineal sólo captura el contexto global de la imagen y pierde información local, lo que degrada la precisión”, afirma Han.
Para compensar esta pérdida de precisión, los investigadores incluyeron dos componentes adicionales en su modelo, cada uno de los cuales requiere sólo una pequeña cantidad de esfuerzo informático.
Uno de estos elementos ayuda al modelo a capturar las interacciones de características locales, aliviando la debilidad de la función lineal en la extracción de información local. El segundo módulo, que permite el aprendizaje a múltiples escalas, ayuda al modelo a reconocer objetos grandes y pequeños.
«Lo más importante es que debemos equilibrar cuidadosamente el rendimiento y la eficiencia», afirma Cai.
Diseñaron EfficientViT con una arquitectura compatible con el hardware, lo que facilita su ejecución en diferentes tipos de dispositivos, como cascos de realidad virtual o computadoras perimetrales en vehículos autónomos. Su modelo también podría aplicarse a otras tareas de visión por computadora, como la clasificación de imágenes.
Segmentación semántica optimizada
Cuando probaron su modelo en conjuntos de datos utilizados para la segmentación semántica, descubrieron que funcionaba hasta nueve veces más rápido que otros modelos populares de Vision Transformer en una unidad de procesamiento de gráficos (GPU) Nvidia, con la misma o mejor velocidad de precisión.
«Ahora podemos obtener lo mejor de ambos mundos y reducir el esfuerzo computacional para hacerlo lo suficientemente rápido como para poder ejecutarlo en dispositivos móviles y en la nube», dice Han.
A partir de estos resultados, los investigadores quieren utilizar esta técnica para acelerar los modelos generativos de aprendizaje automático, como los que se utilizan para generar nuevas imágenes. También quieren ampliar EfficientViT para otras tareas de visión.
«Los modelos de transformadores eficientes desarrollados por el equipo del profesor Song Han forman ahora la columna vertebral de técnicas de vanguardia para diversas tareas de visión por computadora, incluida la detección y la segmentación», dice Lu Tian, director senior de algoritmos de IA en AMD, Inc., quien fue no involucrado en este trabajo. «Su investigación no sólo demuestra la eficiencia y el rendimiento de los transformadores, sino que también demuestra su inmenso potencial para aplicaciones del mundo real, como la mejora de la calidad de imagen en los videojuegos».
“La compresión de modelos y el diseño de modelos livianos son temas de investigación críticos para una computación de IA eficiente, especialmente en el contexto de modelos base grandes. El grupo del profesor Song Han ha demostrado un progreso notable en la compresión y aceleración de los modelos modernos de aprendizaje profundo, en particular Vision Transformers”, añade Jay Jackson, vicepresidente global de inteligencia artificial y aprendizaje automático de Oracle, que no participó en esta investigación. «Oracle Cloud Infrastructure ha apoyado a su equipo en el avance de esta impactante dirección de investigación hacia una IA eficiente y respetuosa con el medio ambiente».
[ad_2]