[ad_1]
Investigadores del MIT y la Universidad de Stanford han desarrollado un nuevo enfoque de aprendizaje automático que puede utilizarse para controlar de forma más eficaz y eficiente un robot, como un dron o un vehículo autónomo, en entornos dinámicos donde las condiciones pueden cambiar rápidamente.
Esta técnica podría ayudar a un vehículo autónomo a compensar las condiciones resbaladizas de la carretera para evitar patinar, podría permitir que un robot de vuelo libre remolque varios objetos en el espacio o podría permitir que un dron siga con precisión a un esquiador alpino a pesar de las fuertes ráfagas de viento.
El enfoque de los investigadores incorpora ciertas estructuras de la teoría del control en el proceso de aprendizaje de un modelo, lo que resulta en un método eficaz para controlar dinámicas complejas, como las causadas por los efectos del viento en la trayectoria de un vehículo volador. Por ejemplo, puede pensar en esta estructura como una pista que puede resultar útil para controlar un sistema.
«El objetivo de nuestro trabajo es aprender la estructura intrínseca de la dinámica del sistema, que puede utilizarse para diseñar controles estabilizadores más eficaces», dice Navid Azizan, profesor asistente de Esther y Harold E. Edgerton en el Departamento de Tecnología del MIT. Ingeniería Mecánica y del Instituto de Datos, Sistemas y Sociedad (IDSS) y miembro del Laboratorio de Sistemas de Información y Decisión (LIDS). «Al aprender juntos sobre la dinámica del sistema y estas estructuras únicas orientadas al controlador a partir de datos, podemos crear de forma natural controladores que funcionan de manera mucho más efectiva en el mundo real».
Al utilizar esta estructura en un modelo aprendido, la técnica de los investigadores extrae inmediatamente un controlador efectivo del modelo, a diferencia de otros métodos de aprendizaje automático que requieren que un controlador se derive o se aprenda por separado con pasos adicionales. Con esta estructura, su enfoque también permite aprender un controlador eficaz con menos datos que otros enfoques. Esto podría ayudar a que su sistema de control basado en el aprendizaje funcione mejor y más rápido en entornos que cambian rápidamente.
«Este trabajo intenta lograr un equilibrio entre identificar la estructura de su sistema y simplemente aprender un modelo a partir de datos», dice el autor principal Spencer M. Richards, estudiante de posgrado de la Universidad de Stanford. “Nuestro enfoque se inspira en cómo los robóticos utilizan la física para derivar modelos más simples para robots. El análisis físico de estos modelos a menudo proporciona una estructura útil para fines de control, una estructura que puede perderse si simplemente intenta ajustar fácilmente un modelo a los datos. En cambio, intentamos identificar una estructura igualmente útil a partir de datos que informe cómo implementar su lógica de control”.
Otros autores del artículo son Jean-Jacques Slotine, profesor de ingeniería mecánica y ciencias cerebrales y cognitivas en el MIT, y Marco Pavone, profesor asociado de aeroespacial en Stanford. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático (ICML).
aprender controladores
Determinar la mejor manera de controlar un robot para realizar una tarea específica puede ser un problema difícil, incluso cuando los investigadores saben cómo modelar todo lo relacionado con el sistema.
Un controlador es la lógica que permite a un dron, por ejemplo, seguir una trayectoria deseada. Este controlador le diría al dron cómo ajustar las fuerzas de su rotor para compensar los efectos de los vientos que podrían sacarlo de una órbita estable para alcanzar su objetivo.
Este dron es un sistema dinámico, un sistema físico que evoluciona con el tiempo. En este caso, su posición y velocidad cambiarán a medida que vuela por el entorno. Si dicho sistema es lo suficientemente simple, los ingenieros pueden crear un controlador a mano.
El modelado manual de un sistema captura intrínsecamente una estructura específica basada en la física del sistema. Por ejemplo, si un robot fuera modelado manualmente utilizando ecuaciones diferenciales, capturaría la relación entre velocidad, aceleración y fuerza. La aceleración es el cambio de velocidad a lo largo del tiempo, determinado por la masa y las fuerzas ejercidas sobre el robot.
Sin embargo, el sistema suele ser demasiado complejo para poder modelarlo exactamente a mano. Los efectos aerodinámicos, como la forma en que el viento arremolinado impulsa un vehículo volador, son notoriamente difíciles de derivar manualmente, explica Richards. En cambio, los investigadores medirían la posición, la velocidad y la velocidad del rotor del dron a lo largo del tiempo y utilizarían el aprendizaje automático para adaptar un modelo de este sistema dinámico a los datos. Sin embargo, estos enfoques normalmente no aprenden una estructura basada en el control. Esta estructura es útil para determinar la mejor manera de ajustar las velocidades del rotor para controlar el movimiento del dron a lo largo del tiempo.
Una vez que han modelado el sistema dinámico, muchos enfoques existentes también utilizan datos para aprender un controlador independiente para el sistema.
«Otros enfoques que intentan aprender la dinámica y un controlador a partir de datos como entidades separadas son filosóficamente un poco diferentes de la forma en que lo hacemos habitualmente para sistemas más simples. Nuestro enfoque se parece más a derivar manualmente modelos a partir de la física y vincularlos al controlador”, afirma Richards.
identificar estructura
El equipo del MIT y Stanford desarrolló una técnica que utiliza el aprendizaje automático para aprender el modelo dinámico, pero de tal manera que el modelo tenga una estructura prescrita que sea útil para controlar el sistema.
Con esta estructura, puede extraer un controlador directamente del modelo dinámico en lugar de utilizar datos para aprender un modelo completamente separado para el controlador.
“Descubrimos que, además de aprender la dinámica, también es importante aprender la estructura centrada en el control que respalda el diseño eficaz del controlador. Nuestro enfoque de aprender factorizaciones de coeficientes dinámicos dependientes del estado ha superado los puntos de referencia en términos de eficiencia y rastreabilidad de los datos, y ha demostrado ser exitoso en el control de la trayectoria del sistema de manera eficiente y efectiva”, dice Azizan.
Cuando probaron este enfoque, su controlador siguió con precisión las trayectorias deseadas, superando a todos los métodos básicos. El controlador extraído de su modelo aprendido se aproximaba mucho al rendimiento de un controlador real basado en la dinámica exacta del sistema.
«Al tomar suposiciones más simples, obtuvimos algo que realmente funciona mejor que otros enfoques básicos complicados», añade Richards.
Los investigadores también descubrieron que su método era eficiente en cuanto a datos, lo que significa que lograba un alto rendimiento incluso con pocos datos. Por ejemplo, podría modelar eficazmente un helicóptero altamente dinámico con sólo 100 puntos de datos. Para los métodos que utilizaban múltiples componentes aprendidos, el rendimiento disminuyó mucho más rápido con conjuntos de datos más pequeños.
Esta eficiencia podría hacer que su técnica sea particularmente útil en situaciones en las que un dron o robot necesita aprender rápidamente en condiciones que cambian rápidamente.
Además, su enfoque es general y podría aplicarse a muchos tipos de sistemas dinámicos, desde brazos robóticos hasta naves espaciales de vuelo libre que operan en entornos de baja gravedad.
En el futuro, los investigadores están interesados en desarrollar modelos que sean más interpretables físicamente y que sean capaces de identificar información muy específica sobre un sistema dinámico, afirma Richards. Esto podría conducir a controladores más potentes.
“A pesar de su ubicuidad e importancia, el control de retroalimentación no lineal sigue siendo un arte, lo que lo hace particularmente adecuado para métodos basados en datos y aprendizaje. Este artículo hace una contribución significativa al campo al proponer un método que aprende colectivamente la dinámica del sistema, un controlador y una estructura orientada al control», dijo Nikolai Matni, profesor asistente en el Departamento de Ingeniería Eléctrica y de Sistemas de la Universidad de Pensilvania. que no participó en este trabajo. «La integración de estos componentes en un algoritmo de aprendizaje común me pareció particularmente emocionante y convincente, de modo que la estructura orientada al control actúa como un sesgo inductivo en el proceso de aprendizaje». El resultado es un proceso de aprendizaje eficiente en datos que genera modelos dinámicos con permite una estructura intrínseca que proporciona un control eficaz, estable y robusto. Si bien las contribuciones técnicas del artículo son excelentes en sí mismas, es esta contribución conceptual la que encuentro más interesante y significativa”.
Esta investigación cuenta con el apoyo parcial de la Iniciativa de Liderazgo Universitario de la NASA y el Consejo de Investigación de Ingeniería y Ciencias Naturales de Canadá.
[ad_2]