[ad_1]
Alguien que esté aprendiendo a jugar tenis podría contratar a un profesor para que le ayude a aprender más rápido. Debido a que ese maestro es (con suerte) un gran jugador de tenis, hay ocasiones en las que tratar de imitarlo fielmente no ayuda al estudiante a aprender. Quizás el maestro salta alto en el aire para devolver hábilmente una andanada. El estudiante que no pueda replicar esto podría intentar algunos otros movimientos por su cuenta hasta que domine las habilidades necesarias para devolver una volea.
Los informáticos también pueden utilizar sistemas de «maestros» para enseñar a otra máquina a realizar una tarea. Pero al igual que el aprendizaje humano, la máquina estudiante se enfrenta al dilema de saber cuándo seguir al profesor y cuándo explorar por sí sola. Para ello, investigadores del MIT y Technion, el Instituto Tecnológico de Israel, han desarrollado un algoritmo que determina de forma automática e independiente cuándo el alumno debe imitar al profesor (lo que se conoce como «aprendizaje por imitación») y cuándo hacerlo en su lugar, mediante prueba y error destinado a aprender (conocido como «aprendizaje por imitación») como aprendizaje por refuerzo).
Su enfoque dinámico permite al estudiante desviarse de la imitación del maestro cuando este es demasiado bueno o no lo suficientemente bueno, y luego volver a seguirlo más adelante en el proceso educativo, cuando esto conduciría a mejores resultados y un aprendizaje más rápido.
Cuando los investigadores probaron este enfoque en simulaciones, descubrieron que su combinación de aprendizaje por prueba y error y aprendizaje por imitación permitía a los estudiantes aprender tareas de manera más efectiva que los métodos que usaban solo un tipo de aprendizaje.
Este método podría ayudar a los investigadores a mejorar el proceso de capacitación de las máquinas utilizadas en situaciones inseguras del mundo real, como por ejemplo un robot entrenado para navegar por un edificio que nunca antes había visto.
“Esta combinación de aprendizaje mediante prueba y error y seguir a un maestro es muy poderosa. Le da a nuestro algoritmo la capacidad de resolver problemas muy difíciles que ninguna técnica puede resolver individualmente», dice Idan Shenfeld, estudiante de doctorado en Ingeniería Eléctrica e Informática (EECS) y autor principal de un artículo sobre la técnica.
Shenfeld fue coautor del artículo con los coautores Zhang-Wei Hong, estudiante de doctorado de EECS; Aviv Tamar; Profesor asistente de Ingeniería Eléctrica e Informática en el Technion; y el autor principal Pulkit Agrawal, director del Improbable AI Lab y profesor asistente en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
crear un equilibrio
Muchos métodos existentes que intentan equilibrar el aprendizaje por imitación y el aprendizaje por refuerzo lo hacen mediante prueba y error de fuerza bruta. Los investigadores eligen una combinación ponderada de los dos métodos de aprendizaje, ejecutan todo el proceso de entrenamiento y repiten el proceso hasta encontrar el equilibrio óptimo. Esto es ineficiente y, a menudo, tan costoso desde el punto de vista computacional que ni siquiera es factible.
«Queremos algoritmos que se basen en principios, establezcan el menor número posible de controladores y alcancen un alto rendimiento; estos principios impulsaron nuestra investigación», afirma Agrawal.
Para lograr esto, el equipo abordó el problema de manera diferente que en trabajos anteriores. Su solución es capacitar a dos estudiantes: uno con una combinación ponderada de aprendizaje por refuerzo y aprendizaje por imitación, y un segundo que solo puede utilizar el aprendizaje por refuerzo para aprender la misma tarea.
La idea principal es ajustar automática y dinámicamente la ponderación de los objetivos de aprendizaje de refuerzo e imitación del primer estudiante. Aquí es donde entra en juego el segundo alumno. El algoritmo de los investigadores compara continuamente a los dos estudiantes. Si el que usa al profesor se desempeña mejor, el algoritmo pondrá más énfasis en el aprendizaje por imitación para entrenar al estudiante, pero si el que usa solo prueba y error comienza a obtener mejores resultados, se enfocará más en el aprendizaje a través del aprendizaje por refuerzo.
Al determinar dinámicamente qué método produce mejores resultados, el algoritmo es adaptativo y puede seleccionar la mejor técnica durante todo el proceso de entrenamiento. Esta innovación permite enseñar a los estudiantes de manera más efectiva que otros métodos que no son adaptables, dice Shenfeld.
«Uno de los mayores desafíos en el desarrollo de este algoritmo fue que nos llevó algún tiempo darnos cuenta de que no debíamos entrenar a los dos estudiantes de forma independiente. Quedó claro que necesitábamos conectar a los agentes para que pudieran compartir información y luego encontrar la manera correcta de respaldar técnicamente esa intuición”, dice Shenfeld.
Resolver problemas difíciles
Para probar su enfoque, los investigadores realizaron muchos experimentos simulados de capacitación de profesores y estudiantes, como navegar por un laberinto de lava para llegar a la otra esquina de una cuadrícula. En este caso, el profesor tiene un mapa de toda la cuadrícula, mientras que el alumno sólo puede ver una parte de ella. Su algoritmo logró una tasa de éxito casi perfecta en todos los entornos de prueba y fue mucho más rápido que otros métodos.
Para probar su algoritmo aún más, crearon una simulación usando una mano robótica con sensores táctiles pero sin visión que necesita reorientar un lápiz en la postura correcta. El profesor tenía acceso a la orientación real del lápiz, mientras que el estudiante sólo podía determinar la orientación del lápiz mediante sensores táctiles.
Su método superó a otros que utilizaban sólo aprendizaje por imitación o sólo aprendizaje por refuerzo.
Realinear objetos es una de las muchas tareas de manipulación que un futuro robot doméstico tendría que realizar, una visión en la que está trabajando el laboratorio de IA Improbable, añade Agrawal.
El aprendizaje profesor-alumno se ha aplicado con éxito para enseñar a los robots a realizar manipulación de objetos complejos y locomoción en simulaciones, y luego transferir las habilidades aprendidas al mundo real. Con estos métodos, el profesor tiene información privilegiada de la simulación que el alumno no tiene cuando opera en el mundo real. Por ejemplo, el profesor conoce el mapa detallado de un edificio por el que el estudiante robot debe navegar utilizando únicamente las imágenes capturadas por su cámara.
“Los métodos actuales de aprendizaje profesor-alumno en robótica no tienen en cuenta la incapacidad del estudiante para imitar al profesor y, por tanto, están limitados en el rendimiento. El nuevo método allana el camino para construir robots superiores”, afirma Agrawal.
Además de mejores robots, los investigadores creen que su algoritmo tiene el potencial de mejorar el rendimiento en diversas aplicaciones que utilizan aprendizaje por imitación o refuerzo. Los modelos de lenguajes grandes, como GPT-4, por ejemplo, son muy adecuados para realizar una amplia gama de tareas. Entonces, tal vez el modelo grande podría usarse como maestro para entrenar a un modelo de estudiante más pequeño para que sea aún «mejor» en una tarea particular. Otra dirección interesante es explorar las similitudes y diferencias entre las máquinas y los humanos que aprenden de sus respectivos profesores. Según los investigadores, un análisis de este tipo podría ayudar a mejorar la experiencia de aprendizaje.
«Lo interesante de este enfoque en comparación con métodos relacionados es lo robusto que parece ser ante diferentes opciones de parámetros y en qué variedad de áreas muestra resultados prometedores», dice Abhishek Gupta, profesor asistente de la Universidad de Washington, que no participó. este trabajo. «Si bien los resultados actuales se basan en gran medida en simulaciones, estoy muy entusiasmado con las oportunidades futuras de aplicar este trabajo a problemas que afectan la memoria y el razonamiento con diferentes modalidades, como la percepción táctil».
“Este trabajo representa un enfoque interesante para reutilizar trabajos computacionales anteriores en el aprendizaje por refuerzo. En particular, su método propuesto puede utilizar pautas docentes subóptimas como guía y, al mismo tiempo, evitar los cuidadosos planes de hiperparámetros requeridos por métodos anteriores para equilibrar los objetivos de imitación de los docentes con la optimización de la recompensa de las tareas”, añade Rishabh Agarwal, científico investigador senior de Google Brain. no involucrado en esta investigación. «Esperamos que este trabajo haga que la reencarnación del aprendizaje por refuerzo con pautas aprendidas sea menos complicada».
Esta investigación fue apoyada en parte por el MIT-IBM Watson AI Lab, Hyundai Motor Company, el Programa DARPA Machine Common Sense y la Oficina de Investigación Naval.
[ad_2]