Los modelos de aprendizaje profundo para tareas visuales (p. ej., clasificación de imágenes) normalmente se entrenan continuamente con datos de un único objeto visual. dominio (por ejemplo, imágenes naturales o imágenes generadas por computadora). Por lo general, una aplicación que realiza tareas visuales para múltiples dominios necesitaría crear múltiples modelos para cada dominio individual, entrenarlos de forma independiente (lo que significa que no se comparten datos entre dominios) y luego cada modelo procesaría datos de entrada específicos del dominio en el momento de la inferencia. Sin embargo, las primeras capas entre estos modelos generan características similares, incluso para diferentes dominios, por lo que puede ser más eficiente entrenar varios dominios juntos, un enfoque conocido como aprendizaje multidominio (MDL). Además, debido a esto, un modelo MDL también puede superar a los modelos de un solo dominio. transferencia de conocimiento positivo, cuando el entrenamiento adicional en un dominio en realidad mejora el desempeño de otro. El contrario, transferencia de conocimiento negativa, también puede ocurrir según el enfoque y la combinación específica de los dominios involucrados. Si bien el trabajo previo en MDL ha demostrado la efectividad del aprendizaje colaborativo de tareas en múltiples dominios, esto involucró una arquitectura de modelo artesanal que es ineficiente para otros trabajos.
En «Redes neuronales multirruta para clasificación visual multidominio en dispositivo» proponemos un modelo MDL general que: 1) puede lograr de manera eficiente una alta precisión (mantener pequeño el número de parámetros y FLOPS), 2) puede aprender, para mejorar positivamente el conocimiento transferencia mientras se mitiga la transferencia negativa, y 3) optimizar efectivamente el modelo común mientras se abordan varias dificultades específicas del dominio. Por lo tanto, proponemos un enfoque de búsqueda de arquitectura neuronal multirruta (MPNAS) para crear un modelo unificado con arquitectura de red heterogénea para múltiples dominios. MPNAS amplía el enfoque de búsqueda de arquitectura neuronal eficiente (NAS) de la búsqueda de ruta única a la búsqueda de múltiples rutas al encontrar conjuntamente una ruta óptima para cada dominio. También presentamos una nueva función de pérdida llamada Priorización de dominio equilibrada adaptativa (ABDP) que se adapta a las dificultades específicas del dominio para entrenar el modelo de manera eficiente. El enfoque MPNAS resultante es eficiente y escalable; El modelo resultante mantiene el rendimiento mientras reduce el tamaño del modelo y los FLOPS en un 78 % y un 32 %, respectivamente, en comparación con un enfoque de dominio único.
Búsqueda de arquitectura neuronal de rutas múltiples
Para fomentar la transferencia positiva de conocimientos y evitar la transferencia negativa, las soluciones tradicionales crean un modelo MDL en el que los dominios comparten la mayoría de las capas que aprenden las características comunes entre los dominios (lo que se denomina extracción de características) y luego tienen algunas capas específicas de dominio en la parte superior. Sin embargo, un enfoque de extracción de características tan homogéneo no puede manejar dominios con características significativamente diferentes (por ejemplo, objetos en imágenes de la naturaleza y pinturas de arte). Por otro lado, la creación manual de una arquitectura heterogénea unificada para cada modelo MDL lleva mucho tiempo y requiere conocimientos específicos del dominio.
NAS es un paradigma poderoso para diseñar automáticamente arquitecturas de aprendizaje profundo. Define un espacio de búsqueda, compuesto de varios bloques de construcción potenciales que podrían ser parte del modelo final. Que algoritmo de búsqueda encuentra la mejor arquitectura candidata de la espacio de búsqueda que optimiza la modelos de objetivosB. Exactitud de la clasificación. Los enfoques recientes de NAS (p. ej., TuNAS) han mejorado en gran medida la eficiencia de búsqueda mediante el uso de muestreo de ruta de extremo a extremo, lo que nos permite escalar NAS de dominios únicos a MDL.
Inspirado en TuNAS, MPNAS construye la arquitectura del modelo MDL en dos fases: búsqueda y entrenamiento. Para encontrar conjuntamente una ruta óptima para cada dominio en la fase de búsqueda, MPNAS crea un controlador de aprendizaje de refuerzo (RL) individual para cada dominio, que escanea una ruta de extremo a extremo (desde la capa de entrada hasta la capa de salida) desde la superred (es decir, el superconjunto de todas las subredes posibles entre los nodos candidatos definidos por el espacio de búsqueda). En múltiples iteraciones, todos los controladores de RL actualizarán la ruta para optimizar las recompensas de RL en todos los dominios. Al final de la fase de búsqueda, obtenemos una subred para cada dominio. Finalmente, todas las subredes se combinan para construir una arquitectura heterogénea para el modelo MDL que se muestra a continuación.
Debido a que la subred se busca de forma independiente para cada dominio, el componente básico de cada capa puede ser compartido por varios dominios (es decir, nodos de color gris oscuro), utilizado por un único dominio (es decir, nodos de color gris claro) o no utilizado por ninguna subred (es decir, nodos de color gris claro). nodos). La ruta de cada dominio también puede omitir cada nivel durante la búsqueda. Debido a que la subred es libre de elegir qué bloques a lo largo de la ruta usar para optimizar el rendimiento (en lugar de, por ejemplo, determinar arbitrariamente qué capas son homogéneas y cuáles son específicas del dominio), la red de salida es tanto heterogénea como eficiente.
![]() |
Muestra de arquitectura buscada por MPNAS. Las rutas discontinuas representan todas las subredes posibles. Las rutas sólidas representan las subredes seleccionadas para cada dominio (resaltadas en diferentes colores). Los nodos en cada capa representan los bloques de construcción candidatos definidos por el espacio de búsqueda. |
La siguiente figura muestra la arquitectura buscada de dos dominios visuales entre los diez dominios del desafío Visual Domain Decathlon. Se puede ver que la subred de estos dos dominios altamente relacionados (uno rojo, el otro verde) comparte gran parte de los componentes básicos de sus rutas superpuestas, pero aún existen algunas diferencias.
![]() |
Bloques de arquitectura de dos dominios (ImageNet y texturas grabables) entre los diez dominios del Visual Domain Decathlon Challenge. El camino rojo y verde representa la subred de ImageNet y texturas grabables, respectivamente. Los nodos de color rosa oscuro representan los bloques compartidos por varios dominios. Los nodos de color rosa claro representan los bloques utilizados por cada ruta. El modelo se basa en el espacio de búsqueda similar a MobileNet V3. El bloque «dwb» en la figura representa el bloque dwbottleneck. El bloque «nulo» en la figura indica que la subred omite este bloque. |
A continuación mostramos la similitud de caminos entre dominios entre los diez dominios del desafío Visual Domain Decathlon. La similitud se mide por la puntuación de similitud de Jaccard entre las subredes de cada dominio, donde más alto significa que las rutas son más similares. Como era de esperar, los dominios que son más similares comparten más nodos en las rutas generadas por MPNAS, lo que también es una señal de una fuerte transferencia de conocimiento positiva. Por ejemplo, las rutas para dominios similares (como ImageNet, CIFAR-100y florque contienen todos los objetos en imágenes naturales) tienen puntajes altos, mientras que las rutas para diferentes dominios (como Clasificación de peatones de Daimler y Imágenes dinámicas UCF101, peatones en imágenes en escala de grises y actividades humanas en imágenes en color natural) tienen valores bajos.
![]() |
Matriz de confusión para la puntuación de similitud de Jaccard entre las rutas de los diez dominios. La puntuación varía de 0 a 1. Un valor mayor indica que dos rutas comparten más nodos. |
Entrenar un modelo multidominio heterogéneo
En la segunda etapa, el modelo resultante de MPNAS se vuelve a entrenar desde cero para todos los dominios. Para que esto funcione, se debe definir un uniformemente Función objetivo para todos los dominios. Con el fin de manejar con éxito una gran diversidad de dominios, desarrollamos un algoritmo que se adapta a lo largo del proceso de aprendizaje para nivelar las pérdidas entre dominios, llamado priorización de dominio equilibrada adaptativa (ABDP).
A continuación mostramos la precisión, el tamaño del modelo y los FLOPS del modelo entrenado en diferentes entornos. Comparamos MPNAS con otros tres enfoques:
- NAS independiente del dominio: Encontrar y entrenar un modelo para cada dominio por separado.
- Cabezal múltiple de ruta única: uso de un modelo previamente entrenado como columna vertebral común para todos los dominios con encabezados de clasificación separados para cada dominio.
- NAS de varios cabezales: Encontrar una arquitectura de red troncal unificada para todos los dominios con encabezados de clasificación separados para cada dominio.
Podemos ver eso a partir de los resultados. NAS independiente del dominio requiere la creación de un paquete de modelos para cada dominio, lo que da como resultado un tamaño de modelo grande. A pesar de Cabezal múltiple de ruta única y NAS de varios cabezales puede reducir significativamente el tamaño del modelo y los FLOPS, lo que obliga a los dominios a compartir la misma red troncal, conduce a una transferencia de conocimiento negativa y reduce la precisión general.
modelo | proporción de parámetros numéricos | GLOPS | Precisión promedio de los primeros 1 |
NAS independiente del dominio | 5.7x | 1.08 | 69,9 |
Cabezal múltiple de ruta única | 1.0x | 0.09 | 35.2 |
NAS de varios cabezales | 0.7x | 0.04 | 45.2 |
MPNAS | 1.3x | 0.73 | 71.8 |
Número de parámetros, gigaFLOPS y precisión top 1 (%) de los modelos MDL en el conjunto de datos de Visual Decathlon. Todos los métodos se basan en el espacio de búsqueda similar a MobileNetV3. |
MPNAS puede crear un modelo pequeño y eficiente mientras mantiene una alta precisión general. La precisión media de MPNAS es incluso un 1,9 % superior a la NAS independiente del dominio Enfoque, ya que el modelo permite la transferencia positiva de conocimiento. La siguiente figura compara la máxima precisión de 1 de estos enfoques por dominio.
![]() |
Precisión Top 1 de cada dominio Visual Decathlon. |
Nuestra evaluación muestra que la precisión del top 1 se mejora del 69,96 % al 71,78 % (delta: +1,81 %) mediante el uso de ABDP como parte de las fases de búsqueda y entrenamiento.
![]() |
Precisión Top 1 para cada dominio de Visual Decathlon entrenado por MPNAS con y sin ABDP. |
Trabajo futuro
Consideramos que MPNAS es una solución eficiente para construir una red heterogénea para abordar el desequilibrio de datos, la diversidad de dominios, la propagación negativa, la escalabilidad de dominios y el gran espacio de búsqueda de posibles estrategias para compartir parámetros en MDL. Mediante el uso de un espacio de búsqueda similar a MobileNet, el modelo resultante también es apto para dispositivos móviles. Seguimos ampliando MPNAS para el aprendizaje multitarea para tareas incompatibles con los algoritmos de búsqueda existentes y esperamos que otros utilicen MPNAS para crear un modelo multidominio unificado.
Gracias
Este trabajo es posible gracias a la colaboración entre varios equipos de Google. Agradecemos a Junjie Ke, Joshua Greaves, Grace Chu, Ramin Mehran, Gabriel Bender, Xuhui Jia, Brendan Jou, Yukun Zhu, Luciano Sbaiz, Alec Go, Andrew Howard, Jeff Gilbert, Peyman Milanfar y Ming-Tsuan Yang.