La investigación sobre cómo los agentes artificiales pueden tomar decisiones ha avanzado rápidamente con los avances en el aprendizaje por refuerzo profundo. En comparación con los modelos ML generativos como GPT-3 e Imagen, los agentes artificiales pueden influir directamente en su entorno a través de acciones, p. B. mover un brazo robótico según la entrada de la cámara o hacer clic en un botón en un navegador web. Si bien los agentes artificiales tienen el potencial de ser cada vez más útiles para los humanos, los métodos actuales se ven frenados por la necesidad de recibir comentarios detallados en forma de recompensas que a menudo se brindan para aprender estrategias exitosas. Por ejemplo, incluso programas poderosos como AlphaGo, a pesar de los grandes presupuestos computacionales, están limitados a unos pocos cientos de movimientos antes de obtener su próxima recompensa.
Por el contrario, las tareas complejas como preparar una comida requieren decisiones en todos los niveles, desde planificar el menú, ir a la tienda a comprar alimentos, seguir la receta en la cocina, hasta ejecutar correctamente las habilidades motoras finas requeridas en cada paso del menú. se requiere sabiamente en base a la entrada sensorial de alta dimensión. El aprendizaje por refuerzo jerárquico (HRL, por sus siglas en inglés) promete dividir automáticamente tareas tan complejas en subobjetivos manejables, lo que permite que los agentes artificiales resuelvan tareas de manera más autónoma con menos recompensas, también conocido como escasas recompensas. Sin embargo, el progreso de la investigación sobre HRL ha demostrado ser un desafío; los métodos actuales se basan en subtareas o espacios de destino especificados manualmente, y no existe una solución general.
Para avanzar en los avances de este desafío de investigación, en colaboración con la Universidad de California, Berkeley, presentamos el agente Director, que aprende comportamientos jerárquicos prácticos, comunes e interpretables a partir de píxeles sin procesar. El director entrena una política gerencial para proponer submetas dentro del espacio latente de un modelo de mundo aprendido, y entrena una política obrera para lograr esas metas. Aunque trabajamos con representaciones latentes, podemos decodificar los subobjetivos internos del director en imágenes para examinar e interpretar sus decisiones. Evaluamos Director utilizando varios puntos de referencia y demostramos que aprende varias estrategias jerárquicas y permite resolver tareas con recompensas muy escasas donde los enfoques anteriores fallan, como
![]() |
Director aprende a resolver tareas complejas de largo plazo dividiéndolas automáticamente en subobjetivos. Cada panel muestra la interacción ambiental a la izquierda y los objetivos internos decodificados a la derecha. |
Así trabaja el director
Director aprende un modelo mundial a partir de píxeles que permite una planificación eficiente en un espacio latente. El modelo mundial asigna imágenes a los estados del modelo y luego predice los estados futuros del modelo dadas las posibles acciones. A partir de las trayectorias predichas de los estados del modelo, Director optimiza dos políticas: la Gerente elige un nuevo objetivo después de cada número determinado de pasos, y eso trabajador aprende a alcanzar los objetivos a través de acciones de bajo nivel. Sin embargo, la selección directa de objetivos en el espacio de representación continua de alta dimensión del modelo mundial sería un problema de control desafiante para el gerente. En cambio, aprendemos sobre un codificador automático de destino para comprimir los estados del modelo en códigos discretos más pequeños. Luego, el gerente selecciona códigos discretos y el codificador automático de destino los convierte en estados modelo antes de pasarlos al trabajador como objetivos.
![]() |
Izquierda: El codificador automático de destino (azul) comprime el estado del modelo mundial (verde) (st) en códigos discretos (p.ej). Derecha: La política del administrador (naranja) selecciona un código que el decodificador de destino (azul) convierte en un destino de espacio de características (GRAMO). La política laboral (rojo) aprende a alcanzar la meta a partir de trayectorias futuras (s1…, s4) predicho por el modelo mundial. |
Todos los componentes de Director se optimizan simultáneamente, por lo que el gerente aprende a seleccionar objetivos que sean alcanzables para el empleado. El gerente aprende a seleccionar objetivos para maximizar tanto la recompensa de la tarea como una bonificación de exploración, lo que lleva al agente a explorar y dirigirse a partes remotas del entorno. Descubrimos que favorecer los estados del modelo en los que el codificador automático de destino provoca un alto error de predicción es una bonificación de exploración simple y efectiva. A diferencia de métodos anteriores como B. Feudal Networks, nuestro trabajador no recibe ninguna recompensa por la tarea y aprende únicamente al maximizar la similitud del espacio de características entre el estado del modelo actual y el objetivo. Esto significa que el trabajador desconoce la tarea y en cambio concentra toda su capacidad en el logro de las metas.
Resultados de referencia
Si bien el trabajo anterior en HRL a menudo se basaba en protocolos de puntuación personalizados, como B. aceptación de varios objetivos de ejercicio, acceso a la posición global de los agentes en un mapa 2D o recompensas de distancia real terrestre: Director trabaja en el entorno de RL de extremo a extremo. Para poner a prueba la capacidad de investigar y resolver tareas a largo plazo, te proponemos el reto Laberinto de hormigas egocéntrico Punto de referencia. Este desafiante conjunto de tareas implica encontrar y alcanzar objetivos en laberintos 3D mediante el control de las articulaciones de un robot de cuatro patas, con solo entradas de cámara propioceptivas y en primera persona. La escasa recompensa se otorga cuando el robot alcanza la meta, por lo que los agentes tienen que explorar de forma autónoma durante la mayor parte de su aprendizaje cuando no hay recompensas por tareas.
![]() |
El punto de referencia Egocentric Ant Maze mide la capacidad de los agentes para explorar de una manera temporalmente abstracta para encontrar la escasa recompensa al final del laberinto. |
Calificamos a Director utilizando dos algoritmos de última generación, también basados en modelos mundiales: Plan2Explore, que maximiza tanto la recompensa de la misión como una bonificación de exploración basada en la discordia del conjunto, y Dreamer, que simplemente maximiza la recompensa de la misión. Ambas líneas base aprenden pautas no jerárquicas de trayectorias imaginadas del modelo mundial. Descubrimos que Plan2Explore da como resultado movimientos ruidosos que inclinan el robot sobre su espalda y evitan que alcance la meta. El soñador logra la meta en el laberinto más pequeño pero no puede explorar los laberintos más grandes. En estos laberintos más grandes, Director es el único método para encontrar y alcanzar el objetivo de manera confiable.
Para investigar la capacidad de los agentes para descubrir recompensas muy escasas de forma aislada y separada del desafío de aprendizaje de representación de entornos 3D, proponemos Teclado visual Suite. En estas tareas, el agente controla un cuadrado negro y lo mueve para pisar pads de diferentes colores. La parte inferior de la pantalla muestra el historial de las almohadillas activadas anteriormente, lo que elimina la necesidad de una memoria a largo plazo. La tarea es encontrar el orden correcto para activar todas las almohadillas, momento en el cual el agente obtiene la exigua recompensa. Aquí, también, Director supera los métodos anteriores muchas veces.
![]() |
El punto de referencia de Visual Pin Pad permite a los investigadores calificar a los agentes con recompensas muy escasas y sin desafíos confusos como la percepción de escenas en 3D o la memoria a largo plazo. |
Además de resolver tareas con escasas recompensas, examinamos el desempeño del director en una variedad de tareas que son comunes en la literatura y que normalmente no requieren un estudio a largo plazo. Nuestro experimento incluye 12 tareas que cubren juegos de Atari, tareas de Control Suite, entornos de laberinto DMLab y la plataforma de investigación Crafter. Encontramos que Director tiene éxito en todas estas tareas con los mismos hiperparámetros, lo que demuestra la solidez del proceso de aprendizaje de la jerarquía. Además, proporcionar la recompensa de la tarea para el trabajador le permite a Director aprender movimientos precisos para la tarea e igualar o superar completamente el rendimiento del algoritmo Dreamer de última generación.
![]() |
Director resuelve una amplia gama de tareas de recompensa estándar y densas con los mismos hiperparámetros, lo que demuestra la solidez del proceso de aprendizaje de la jerarquía. |
visualizaciones objetivo
Mientras que Director usa estados de modelo latentes como objetivos, el modelo de mundo aprendido nos permite decodificar estos objetivos en imágenes para la interpretación humana. Visualizamos los objetivos internos de Director en múltiples entornos para obtener información sobre su toma de decisiones y descubrimos que Director aprende diferentes estrategias para desglosar tareas a largo plazo. Por ejemplo, en las tareas Walker y Humanoid, el gerente solicita una postura inclinada hacia adelante y cambios en los patrones del piso, y el trabajador completa los detalles de cómo deben moverse las piernas. En Egocentric Ant Maze, el gerente controla el robot hormiga solicitando una secuencia de diferentes colores de pared. En la plataforma de investigación 2D Crafter, el gerente solicita la recopilación de recursos y herramientas a través del medidor de inventario en la parte inferior de la pantalla, y en los laberintos de DMLab, el gerente alienta al trabajador a través de la animación de teletransporte que ocurre justo después de recolectar el objeto deseado.
![]() |
![]() |
Izquierda: En Egocentric Ant Maze XL, el gerente guía al trabajador a través del laberinto apuntando a paredes de diferentes colores. Derecha: En Visual Pin Pad Six, el gerente establece objetivos secundarios a través de la barra de progreso a continuación y resaltando diferentes pads. |
![]() |
![]() |
Izquierda: En Walker, el gerente solicita una postura inclinada hacia adelante con ambos pies fuera del piso y un patrón de piso alterno, con el trabajador completando los detalles del movimiento de las piernas. Derecha: En la desafiante búsqueda humanoide, el Director aprende a levantarse y salir de los píxeles de manera confiable y sin terminar prematuramente el episodio. |
![]() |
![]() |
Izquierda: En Crafter, el administrador solicita la recolección de recursos a través del panel de inventario en la parte inferior de la pantalla. Derecha: En DMLab Goals Small, el administrador solicita la animación de teletransporte que se produce al recibir una recompensa para notificar al trabajador sobre la tarea. |
direcciones futuras
Vemos a Director como un paso adelante en la investigación de HRL y estamos preparando su código para futuras versiones. Director es un algoritmo práctico, interpretable y de aplicación general que proporciona un punto de partida eficaz para el desarrollo futuro de agentes artificiales jerárquicos por parte de la comunidad investigadora, por ejemplo, los objetivos y la construcción de agentes jerárquicos con tres o más niveles de abstracción temporal. Somos optimistas de que los futuros avances algorítmicos en HRL desbloquearán nuevos niveles de rendimiento y autonomía para los agentes inteligentes.