[ad_1]
Para enseñarle a un agente de IA una nueva tarea, como abrir un gabinete de cocina, los investigadores suelen utilizar el aprendizaje por refuerzo, un proceso de prueba y error en el que el agente es recompensado por acciones que lo acercan a su objetivo.
En muchos casos, un experto humano debe diseñar cuidadosamente una función de recompensa, que es un mecanismo de incentivo que motiva al agente a explorar. El experto humano debe actualizar iterativamente esta función de recompensa a medida que el agente explora e intenta diferentes acciones. Esto puede llevar mucho tiempo, ser ineficiente y difícil de escalar, especialmente si la tarea es compleja e implica muchos pasos.
Investigadores del MIT, la Universidad de Harvard y la Universidad de Washington han desarrollado un nuevo enfoque para el aprendizaje por refuerzo que no se basa en una función de recompensa diseñada por expertos. En su lugar, utiliza comentarios recopilados de muchos usuarios no expertos para ayudar al agente a lograr su objetivo.
Si bien algunos otros métodos también intentan aprovechar los comentarios de los no expertos, este nuevo enfoque permite que el agente de IA aprenda más rápido, a pesar de que los datos de los usuarios obtenidos mediante crowdsourcing a menudo están plagados de errores. Estos datos ruidosos pueden provocar que otros métodos fallen.
Además, este nuevo enfoque permite recopilar comentarios de forma asincrónica, lo que permite a usuarios no expertos de todo el mundo contribuir a la formación del agente.
“Una de las partes más desafiantes y que más tiempo consumen en el desarrollo de un agente robótico hoy en día es el desarrollo de la función de recompensa. Hoy en día, las funciones de recompensa están diseñadas por investigadores experimentados, un paradigma que no es escalable si queremos enseñar a nuestros robots muchas tareas diferentes. «Nuestro trabajo sugiere una forma de escalar el aprendizaje de robots mediante la colaboración colectiva en el diseño de la función de recompensa y permitiendo que los no expertos brinden comentarios útiles», dice Pulkit Agrawal, profesor asistente en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT. dirige el Improbable AI Lab en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL).
En el futuro, este método podría ayudar a un robot a aprender rápidamente a realizar tareas específicas en el hogar de un usuario sin que el propietario tenga que mostrarle ejemplos físicos de cada tarea. El robot podría explorar de forma independiente, con comentarios de personas no expertas que guiarían su exploración.
“En nuestro método, la función de recompensa guía al agente hacia qué explorar, en lugar de decirle exactamente qué hacer para completar la tarea. Incluso si el monitoreo humano es algo impreciso y ruidoso, el agente aún puede explorar, lo que le ayuda a aprender mucho mejor”, explica el autor principal Marcel Torne ’23, investigador asociado en el Improbable AI Lab.
Torne está acompañado en el artículo por su asesor del MIT, Agrawal; el autor principal Abhishek Gupta, profesor asistente de la Universidad de Washington; y otros en la Universidad de Washington y el MIT. La investigación se presentará en la conferencia Neural Information Processing Systems el próximo mes.
Comentarios fuertes
Una forma de recopilar comentarios de los usuarios para el aprendizaje por refuerzo es mostrarle dos fotografías de los estados que ha alcanzado el agente y luego preguntarle qué estado está más cerca de un objetivo. Quizás el objetivo de un robot sea abrir un mueble de cocina. Una imagen podría mostrar que el robot abrió el armario, mientras que la segunda podría mostrar que abrió el microondas. Un usuario seleccionaría la foto en «mejor» condición.
Algunos enfoques anteriores intentan utilizar esta retroalimentación binaria de colaboración colectiva para optimizar una función de recompensa que el agente usaría para aprender la tarea. Sin embargo, dado que es probable que los legos cometan errores, la función de recompensa puede volverse muy ruidosa, por lo que el agente puede quedarse atascado y nunca alcanzar su objetivo.
“Básicamente, el agente se tomaría demasiado en serio la función de recompensa. Intentaría cumplir perfectamente la función de recompensa. En lugar de optimizar la función de recompensa directamente, simplemente la usamos para indicarle al robot qué áreas explorar”, afirma Torne.
Él y sus colegas dividieron el proceso en dos partes separadas, cada una controlada por su propio algoritmo. Llaman a su nuevo método de aprendizaje por refuerzo HuGE (Exploración guiada por humanos).
Por un lado, un algoritmo de selección de objetivos se actualiza continuamente con comentarios humanos de colaboración colectiva. La retroalimentación no se utiliza como función de recompensa, sino como guía para la exploración del agente. En cierto sentido, los usuarios no expertos dejan caer migas de pan que gradualmente llevan al agente a su objetivo.
Por otro lado, el agente explora de forma independiente, de forma autosupervisada, guiado por el selector de objetivos. Recopila imágenes o vídeos de las acciones que intenta, que luego se envían a las personas y se utilizan para actualizar la selección de objetivos.
Esto reduce el área que el agente puede explorar y lo guía hacia áreas más prometedoras y más cercanas a su objetivo. Sin embargo, si no hay retroalimentación o la retroalimentación tarda un poco en llegar, el agente continúa aprendiendo de forma independiente, aunque más lentamente. Esto permite que la retroalimentación se recopile con poca frecuencia y de forma asincrónica.
“El ciclo de exploración puede continuar de forma autónoma porque se trata de explorar y aprender cosas nuevas. Y luego, cuando obtenga una mejor señal, será examinada de una manera más concreta. Puedes dejarles disparar a su propio ritmo”, añade Torne.
Y debido a que la retroalimentación solo guía suavemente el comportamiento del agente, eventualmente aprende a completar la tarea incluso cuando los usuarios dan respuestas incorrectas.
Aprendizaje más rápido
Los investigadores probaron este método en una serie de tareas simuladas y del mundo real. En la simulación, utilizaron HuGE para aprender eficazmente tareas con secuencias de acción largas, como apilar bloques en un orden específico o navegar por un gran laberinto.
En pruebas del mundo real, utilizaron HuGE para entrenar brazos robóticos para dibujar la letra «U» y seleccionar y colocar objetos. Para estas pruebas, recopilaron datos de 109 usuarios no expertos en 13 países diferentes en tres continentes.
En experimentos reales y simulados, HuGE ayudó a los agentes a aprender a lograr el objetivo más rápido que otros métodos.
Los investigadores también descubrieron que los datos recopilados por no expertos obtuvieron mejores resultados que los datos sintéticos creados y etiquetados por los investigadores. Para los usuarios no experimentados, etiquetar 30 imágenes o vídeos llevó menos de dos minutos.
“Eso hace que sea muy prometedor poder escalar este método”, añade Torne.
En un artículo relacionado, los investigadores presentaron recientemente en la Robot Learning Conference, mejoraron HuGE para que un agente de IA pueda aprender a realizar la tarea y luego restablecer de forma autónoma el entorno para continuar aprendiendo. Por ejemplo, si el agente aprende a abrir un armario, el método también le indica que lo cierre.
«Ahora podemos hacer que aprenda de forma completamente autónoma, sin necesidad de reinicios humanos», afirma.
Los investigadores también enfatizan que en este y otros enfoques de aprendizaje, es crucial garantizar que los agentes de IA estén alineados con los valores humanos.
En el futuro, quieren perfeccionar aún más HuGE para que el agente pueda aprender de otras formas de comunicación, como el lenguaje natural y las interacciones físicas con el robot. También están interesados en utilizar este método para enseñar a varios agentes al mismo tiempo.
Esta investigación está financiada en parte por el MIT-IBM Watson AI Lab.
[ad_2]