[ad_1]
La segmentación panóptica es un problema de visión por computadora que sirve como una tarea central para muchas aplicaciones del mundo real. Debido a su complejidad, en trabajos anteriores, la segmentación panóptica a menudo se ha dividido en segmentación semántica (asignación de etiquetas semánticas como «persona» y «cielo» a cada píxel de una imagen) y segmentación de instancias (identificación y segmentación de objetos de solo recuento como como «peatones» y «coches», en una imagen) y subdividida en varias subtareas. Cada subtarea se procesa individualmente y se aplican módulos adicionales para reunir los resultados de cada fase de subtarea. Este proceso no solo es complejo, sino que también introduce muchas prioridades diseñadas a mano al procesar subtareas y combinar los resultados de diferentes etapas de subtareas.
Recientemente, se propuso en MaX-DeepLab una solución de extremo a extremo para la segmentación panóptica utilizando transformadores de máscara (una extensión de la arquitectura Transformer utilizada para generar máscaras de segmentación), inspirada en Transformer y DETR. Esta solución utiliza una ruta de píxeles (que consta de redes neuronales convolucionales o transformadores de visión) para extraer características de píxeles, una ruta de memoria (que consta de módulos decodificadores de transformadores) para extraer características de memoria y un transformador de doble ruta para la interacción entre características de píxeles y Características de la memoria. Sin embargo, el transformador bidireccional que utiliza la atención cruzada se desarrolló originalmente para tareas de lenguaje en las que la secuencia de entrada consta de decenas o cientos de palabras. Sin embargo, para tareas visuales, especialmente problemas de segmentación, la secuencia de entrada consta de decenas de miles de píxeles, lo que indica no solo una escala de entrada mucho mayor, sino también una incrustación más baja en comparación con las palabras del habla.
En «CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation» presentado en CVPR 2022 y «kMaX-DeepLab: k-means Mask Transformer» presentado en ECCV 2022, proponemos la atención cruzada de una Perspectiva de agrupamiento (es decir, agrupar píxeles con el mismas etiquetas semánticas) que se adapta mejor a las tareas visuales. CMT-DeepLab se basa en el método anterior de última generación MaX-DeepLab y utiliza un enfoque de agrupación de píxeles para realizar atención cruzada, lo que da como resultado un mapa de atención más denso y plausible. kMaX-DeepLab rediseña aún más la atención cruzada para que se asemeje más a un algoritmo de agrupamiento de k-means, con un simple cambio en la función de activación. Mostramos que CMT-DeepLab logra mejoras significativas en el rendimiento, mientras que kMaX-DeepLab no solo simplifica la modificación, sino que también avanza el estado del arte muchas veces sin aumentar el tiempo de prueba. También nos complace anunciar el lanzamiento de código abierto de kMaX-DeepLab, nuestro modelo de segmentación más poderoso, en la biblioteca DeepLab2.
visión general
En lugar de aplicar directamente la atención cruzada a las tareas visuales sin modificaciones, proponemos reinterpretarlo desde una perspectiva de agrupación. En particular, observamos que la consulta del objeto Mask Transformer se puede ver como centros de clúster (que tienen como objetivo agrupar píxeles con las mismas etiquetas semánticas), y el proceso de atención mutua es similar al algoritmo de agrupación k-means, que es un proceso iterativo. asume (1) la asignación de píxeles a los centros de los clústeres, donde se pueden asignar varios píxeles a un solo centro de clústeres y algunos centros de clústeres pueden no tener píxeles asignados, y (2) la actualización de los centros de los clústeres promediando los píxeles asignados al mismo centro de clústeres que convertirse en centros de clúster no actualizados si no tienen un píxel asignado).
![]() |
En CMT-DeepLab y kMaX-DeepLab, reformulamos la atención cruzada desde la perspectiva del agrupamiento, que consiste en pasos iterativos de asignación y actualización de clústeres. |
Dada la popularidad del algoritmo de agrupamiento k-means, en CMT-DeepLab rediseñamos la atención cruzada para que la operación softmax espacial (es decir, la operación softmax aplicada a lo largo de la resolución espacial de la imagen) asigne centros de clúster a píxeles en lugar de aplicarse a lo largo del clúster. centros. En kMaX-DeepLab, simplificamos aún más el softmax espacial a argmax por clústeres (es decir, aplicando la operación argmax a lo largo de los centros de los clústeres). Observamos que la operación argmax es la misma que la asignación dura (es decir, asignar un píxel a un solo grupo) utilizada en el algoritmo de agrupación en clústeres k-means.
La reformulación de la atención cruzada máscara-transformador desde una perspectiva de agrupación mejora significativamente el rendimiento de la segmentación y simplifica la compleja canalización máscara-transformador para que sea más interpretable. En primer lugar, las características de los píxeles se extraen de la imagen de entrada mediante una estructura de codificador-decodificador. Luego, se usa un conjunto de centros de clúster para agrupar píxeles, que se actualizan aún más en función de las asignaciones de agrupamiento. Finalmente, los pasos de actualización y asignación de agrupamiento se realizan de forma iterativa, y la última asignación sirve directamente como predicciones de segmentación.
![]() |
Para transformar un decodificador de transformador de máscara típico (que consta de atención cruzada, autoatención de varios cabezales y una red de avance) en nuestra atención cruzada de k-means propuesta, simplemente reemplazamos softmax espacial con argmax en forma de clúster. |
La metaarquitectura de nuestro kMaX-DeepLab propuesto consta de tres componentes: codificador de píxeles, decodificador de píxeles extendido y decodificador kMaX. El codificador de píxeles es cualquier columna vertebral de la red utilizada para extraer características de la imagen. El decodificador de píxeles mejorado incluye codificadores transformadores para mejorar las características de los píxeles y capas de muestreo superior para generar características de mayor resolución. La serie de decodificadores kmaX transforma los centros de los grupos en (1) vectores de incrustación de máscaras, que se multiplican por las características de los píxeles para producir las máscaras predichas y (2) predicciones de clase para cada máscara.
![]() |
La metaarquitectura de kMaX-DeepLab. |
Resultados
Evaluamos CMT-DeepLab y kMaX-DeepLab utilizando la métrica de calidad panóptica (PQ) en dos de los conjuntos de datos de segmentación panóptica más sofisticados, COCO y Cityscapes, en comparación con MaX-DeepLab y otros métodos de última generación. CMT-DeepLab logra un aumento significativo en el rendimiento, mientras que kMaX-DeepLab no solo simplifica la modificación, sino que con 58.0% PQ en COCO-Val-Set y 68.4% PQ, 44.0% el estado del arte por un amplio margen empuja. Enmascarar Precisión promedio (máscara AP), 83,5 % de intersección sobre unión media (mIoU) en el conjunto de valores de Cityscapes, sin extensión de tiempo de prueba ni uso de un conjunto de datos externo.
Comparación con el conjunto COCO val. |
método | pq | punto de accesomascarilla | millón |
Panóptico DeepLab | 63,0% (-5,4%) | 35,3% (-8,7%) | 80,5% (-3,0%) |
Laboratorio profundo axial | 64,4% (-4,0%) | 36,7% (-7,3%) | 80,6% (-2,9%) |
SWideRNet | 66,4% (-2,0%) | 40,1% (-3,9%) | 82,2% (-1,3%) |
laboratorio profundo kmaX | 68,4% | 44,0% | 83,5% |
Comparación de Cityscapes val set. |
Desarrollado desde una perspectiva de agrupación, kMaX-DeepLab ofrece no solo un mayor rendimiento, sino también una visualización más plausible del mapa de atención para comprender cómo funciona. En el siguiente ejemplo, kmaX-DeepLab realiza iterativamente asignaciones de agrupamiento y actualizaciones, mejorando gradualmente la calidad de la máscara.
![]() |
El mapa de atención de kMaX-DeepLab se puede visualizar directamente como segmentación panóptica, lo que brinda una mayor plausibilidad para el mecanismo de trabajo del modelo (Crédito de la imagen: coco_url y licencia). |
Conclusiones
Hemos mostrado una forma de construir mejor transformadores de máscara para tareas visuales. Con modificaciones simples, CMT-DeepLab y kMaX-DeepLab reformulan la atención cruzada para parecerse más a un algoritmo de agrupamiento. Como resultado, los modelos propuestos logran un rendimiento de última generación en los exigentes conjuntos de datos COCO y Cityscapes. Esperamos que el lanzamiento de código abierto de kMaX-DeepLab en la biblioteca DeepLab2 facilite la investigación futura sobre el diseño de arquitecturas de transformadores específicas de Vision.
Gracias
Agradecemos el valioso debate y el apoyo de Huiyu Wang, Dahun Kim, Siyuan Qiao, Maxwell Collins, Yukun Zhu, Florian Schroff, Hartwig Adam y Alan Yuille.
[ad_2]