[ad_1]
La estrategia de evolución (ES) es una familia de técnicas de optimización inspiradas en las ideas de la selección natural: una población de soluciones candidatas generalmente evoluciona durante generaciones para adaptarse mejor a un objetivo de optimización. ES se ha aplicado a una variedad de problemas de decisión desafiantes, como Por ejemplo, locomoción con patas, control de cuadricópteros e incluso control de sistemas de energía.
En comparación con los métodos de aprendizaje por refuerzo (RL) basados en gradientes, como la optimización de políticas proximales (PPO) y el actor-crítico suave (SAC), ES tiene varias ventajas. Primero, ES explora directamente en el espacio de los parámetros del controlador, mientras que los métodos basados en gradientes a menudo exploran dentro de un espacio de acción limitado que afecta indirectamente a los parámetros del controlador. Se ha demostrado que una exploración más directa aumenta el rendimiento del aprendizaje y permite la recopilación de datos a gran escala con computación paralela. En segundo lugar, un desafío importante en RL es la asignación de crédito a largo plazo, p. B. cuando un robot completa una tarea al final, para determinar qué acciones que ha realizado en el pasado fueron las más críticas y deberían recibir una recompensa mayor. Debido a que ES representa directamente la compensación total, libera a los investigadores de la necesidad de manejar explícitamente la asignación de créditos. Además, debido a que ES no depende de la información de gradientes, naturalmente puede tratar con objetivos muy irregulares o arquitecturas de controlador donde el cálculo de gradientes no es trivial, como B. Aprendizaje por meta-refuerzo. Sin embargo, una de las principales debilidades de los algoritmos basados en ES es su dificultad para escalar a problemas que requieren entradas sensoriales de alta dimensión para codificar dinámicas ambientales, como B. Robots de entrenamiento con entradas visuales complejas.
En este trabajo, proponemos «PI-ARS: aceleración de la locomoción visual aprendida por evolución con representaciones de información predictiva», un algoritmo de aprendizaje que combina el aprendizaje de representación y ES para resolver problemas de alta dimensión de manera escalable. La idea central es usar información de predicción, un objetivo de aprendizaje de representación, para obtener una representación compacta de la dinámica del entorno de alta dimensión, y luego aplicar Búsqueda aleatoria aumentada (ARS), un popular algoritmo ES, para transformar la representación compacta aprendida en robótica. acciones Probamos PI-ARS en el desafiante problema de la locomoción visual para robots con patas. PI-ARS permite el entrenamiento rápido de potentes controladores de locomoción basados en visión capaces de atravesar una variedad de entornos desafiantes. Además, los controladores entrenados en entornos simulados se transfieren con éxito a un robot real de cuatro patas.
PI-ARS entrena pautas de locomoción visual confiables que son transferibles al mundo real. |
Información prospectiva
Una buena representación del aprendizaje político debe ser tanto apresamientopara que ES pueda enfocarse en resolver un problema dimensional mucho más bajo de lo que requeriría aprender de las observaciones sin procesar, y misión crítica, para que el controlador aprendido tenga toda la información necesaria para aprender el comportamiento óptimo. En los problemas de control de robots con espacio de entrada de alta dimensión, la comprensión del entorno, incluida la información dinámica tanto del propio robot como de los objetos que lo rodean, es crucial para la política.
Como tal, proponemos un codificador de observación que conserva la información de las observaciones de entrada sin procesar, lo que permite que la política prediga los estados futuros del medio ambiente, de ahí el nombre información prospectiva (PI). Más específicamente, estamos optimizando el codificador para que la versión codificada de lo que el robot ha visto y planificado en el pasado pueda predecir con precisión lo que el robot podría ver y ser recompensado en el futuro. Una herramienta matemática para describir tal propiedad es la información mutua, que mide la cantidad de información que obtenemos sobre una variable aleatoria. X observando otra variable aleatoria Y. En nuestro caso, X y Y sería lo que el robot ha visto y planeado en el pasado, y lo que el robot verá y será recompensado en el futuro. La optimización directa del objetivo de información mutua es un problema desafiante porque generalmente solo tenemos acceso a muestras de las variables aleatorias, pero no a sus distribuciones subyacentes. En este trabajo, seguimos un enfoque previo que utiliza InfoNCE, un enlace variacional contrastivo sobre información mutua, para optimizar el objetivo.
Izquierda: Utilizamos el aprendizaje de representación para codificar PI del entorno. Derecha: Entrenamos la representación reproduciendo trayectorias desde el búfer de reproducción y maximizando la previsibilidad entre la observación pasada y el plan de movimiento y la observación futura y la recompensa de la trayectoria. |
Información predictiva con búsqueda aleatoria aumentada
A continuación, combinamos PI con la búsqueda aleatoria aumentada (ARS), un algoritmo que ha demostrado un excelente rendimiento de optimización para tareas de decisión exigentes. Con cada iteración de ARS, muestrea una población de parámetros de controlador perturbados, evalúa su rendimiento en el entorno de prueba y luego calcula un gradiente que mueve el controlador hacia aquellos con mejor rendimiento.
Usamos la representación compacta aprendida de PI para conectar PI y ARS, que llamamos PI-ARS. Más específicamente, ARS optimiza un controlador que toma la representación compacta PI aprendida como entrada y predice los comandos de robot apropiados para realizar la tarea. Al optimizar un controlador con un espacio de entrada más pequeño, ARS puede encontrar la solución óptima de manera más eficiente. Mientras tanto, usamos los datos recopilados durante la optimización de ARS para mejorar aún más la representación aprendida, que luego se alimenta al controlador de ARS en la siguiente iteración.
Una descripción general del flujo de datos de PI-ARS. Nuestro algoritmo está anidado entre dos pasos: 1) Optimizar el objetivo de PI que actualiza la política, es decir, los pesos para la red neuronal que extrae la representación aprendida; y 2) muestrear nuevas trayectorias y actualizar los parámetros de control usando ARS. |
Locomoción visual para robots con patas
Evaluamos PI-ARS en el problema de locomoción visual para robots con patas. Elegimos este problema por dos razones: la locomoción visual es un cuello de botella importante para que los robots con patas se usen en aplicaciones del mundo real, y la entrada visual de alta dimensión a la política y la dinámica compleja en los robots con patas lo convierten en un caso de prueba ideal para demostrar la efectividad del algoritmo PI-ARS. A continuación se puede ver una demostración de nuestra configuración de tareas en la simulación. Las políticas primero se entrenan en entornos simulados y luego se transfieren al hardware.
Una ilustración de la estructura de la tarea de locomoción visual. El robot está equipado con dos cámaras para observar el entorno (representado por las pirámides transparentes). Las observaciones y el estado del robot se envían a la política para crear un plan de movimiento de alto nivel, p. B. la ubicación de aterrizaje de los pies y la velocidad de movimiento deseada. El plan de movimiento de alto nivel se logra luego mediante un controlador de control predictivo de movimiento (MPC) de bajo nivel. |
resultados de la prueba
Primero, evaluamos el algoritmo PI-ARS utilizando cuatro tareas simuladas desafiantes:
- Escalones desiguales: El robot debe caminar sobre terreno accidentado evitando los huecos.
- Manojo Quincuncial: El robot debe evitar espacios tanto en el frente como en el costado.
- Plataformas Móviles: El robot debe caminar sobre peldaños que se mueven al azar horizontal o verticalmente. Esta tarea demuestra la flexibilidad de aprender una estrategia basada en la visión en comparación con la reconstrucción explícita del entorno.
- navegacion interior: El robot debe navegar a una ubicación aleatoria mientras evita obstáculos en un ambiente interior.
Como se muestra a continuación, PI-ARS puede superar significativamente (en un 30-50 %) a ARS en las cuatro tareas en términos de la recompensa total de tareas que puede recibir.
Izquierda: Visualización del desempeño de la política PI-ARS en simulación. Derecha: Recompensa total de la tarea (es decir, retorno del episodio) para PI-ARS (Línea verde) y ARS (línea roja). El algoritmo PI-ARS supera significativamente a ARS en cuatro tareas desafiantes de movimiento visual. |
Aplicamos las pautas entrenadas a dos tareas en un robot Laikago real: trampolín aleatorio y navegación interior. Demostramos que nuestras políticas capacitadas pueden manejar con éxito tareas del mundo real. En particular, la tasa de éxito de la tarea de trampolín aleatorio mejoró al 100 % desde el 40 % en el trabajo anterior.
La política entrenada por PI-ARS permite que un robot Laikago real navegue alrededor de obstáculos. |
Conclusión
En este trabajo, presentamos un nuevo algoritmo de aprendizaje, PI-ARS, que combina el aprendizaje de representación basado en gradientes con algoritmos de estrategia evolutiva sin gradientes para aprovechar ambos. PI-ARS se beneficia de la eficacia, la simplicidad y la paralelización de los algoritmos sin gradientes al tiempo que elimina un cuello de botella clave de los algoritmos ES en el manejo de problemas de alta dimensión mediante la optimización de una representación de baja dimensión. Aplicamos PI-ARS a una serie de tareas de locomoción visual desafiantes, en las que PI-ARS supera significativamente el estado del arte. Además, validamos la pauta aprendida de PI-ARS en un robot real de cuatro patas. Permite que el robot camine sobre escalones colocados al azar y navegue por un espacio interior con obstáculos. Nuestro método abre la posibilidad de incorporar modelos modernos de redes neuronales grandes y datos a gran escala en el campo de la estrategia evolutiva para el control de robots.
Gracias
Nos gustaría agradecer a nuestros coautores: Ofir Nachum, Tingnan Zhang, Sergio Guadarrama y Jie Tan. También nos gustaría agradecer a Ian Fischer y John Canny por sus valiosos comentarios.
[ad_2]