[ad_1]
Imagínese comprar un robot para realizar las tareas del hogar. Construido y capacitado en una fábrica para tareas específicas, este robot nunca ha visto los artículos de su hogar. Si le pide que recoja una taza de la mesa de su cocina, es posible que no la reconozca (tal vez porque esa taza está pintada con una imagen inusual, como la mascota del MIT, Tim el Castor). Entonces el robot falla.
«En este momento, por la forma en que estamos entrenando a estos robots, si fallan, no sabemos realmente por qué. Así que simplemente levantarías las manos y dirías: «Está bien, supongo que tendremos que empezar de nuevo». Un componente crítico del que carece este sistema es poder mostrarle al robot por qué está fallando para que el usuario pueda darle su opinión. ”, dice Andi Peng, estudiante de posgrado en Ingeniería Eléctrica e Informática (EECS) en el MIT.
Peng y sus colaboradores del MIT, la Universidad de Nueva York y la Universidad de California en Berkeley han desarrollado un marco que permite a los humanos enseñar a un robot qué hacer rápidamente y con el mínimo esfuerzo.
Cuando un robot falla, el sistema utiliza un algoritmo para generar explicaciones contrafactuales que describen lo que se debe cambiar para que el robot tenga éxito. Por ejemplo, tal vez el robot habría podido levantar la taza si ésta fuera de un determinado color. Le muestra al ser humano estos contrafácticos y le pide comentarios sobre por qué falló el robot. Luego, el sistema utiliza esta retroalimentación y las explicaciones contrafactuales para generar nuevos datos que utiliza para ajustar el robot.
El ajuste optimiza un modelo de aprendizaje automático que ya ha sido entrenado para realizar una tarea para que pueda realizar una segunda tarea similar.
Los investigadores probaron esta técnica en simulaciones y descubrieron que podía enseñar a un robot de manera más eficiente que otros métodos. Los robots entrenados con este marco lograron un mejor rendimiento, mientras que el proceso de capacitación tomó menos tiempo para los humanos.
Este marco podría ayudar a los robots a aprender más rápido en nuevos entornos sin necesidad de que el usuario tenga ningún conocimiento técnico. A largo plazo, esto podría ser un paso para permitir que los robots multiuso realicen de manera eficiente tareas diarias para personas mayores o con discapacidad en diferentes entornos.
A Peng, el autor principal, se unen los coautores Aviv Netanyahu, estudiante de doctorado de EECS; Mark Ho, profesor asistente del Instituto de Tecnología Stevens; Tianmin Shu, investigador postdoctoral del MIT; Andreea Bobu, estudiante de posgrado de UC Berkeley; y los autores principales Julie Shah, profesora de Aeroespacial del MIT y directora del Grupo de Robótica Interactiva en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), y Pulkit Agrawal, profesor de EECS y socio de CSAIL. La investigación se presentará en la Conferencia Internacional sobre Aprendizaje Automático.
En el trabajo de formación
Los robots a menudo fallan debido a cambios en la distribución: al robot se le presentan objetos y espacios que no vio durante el entrenamiento y no entiende qué hacer en este nuevo entorno.
Una forma de volver a entrenar a un robot para una tarea específica es mediante el aprendizaje por imitación. El usuario podría demostrar la tarea correcta para enseñarle al robot qué hacer. Si un usuario intenta enseñarle a un robot a tomar una taza pero lo demuestra con una taza blanca, el robot podría aprender que todas las tazas son blancas. Es posible que entonces no consiga coger una taza roja, azul o «Tintín el Castor Marrón».
Se podrían necesitar miles de demostraciones para enseñarle a un robot a reconocer que una taza es una taza independientemente de su color.
«No quiero tener que demostrar con 30.000 copas. Quiero demostrarlo con solo una taza. Pero luego tengo que enseñarle al robot a reconocer que puede sostener una taza de cualquier color”, dice Peng.
Para conseguirlo, el sistema de los investigadores determina qué objeto concreto le interesa al usuario (una taza) y qué elementos no son importantes para la tarea (quizás el color de la taza no importe). Utiliza esta información para generar datos nuevos y sintéticos cambiando estos conceptos visuales «sin importancia». Este proceso se llama expansión de datos.
El marco consta de tres pasos. Primero, se muestra la tarea que provocó que el robot fallara. Luego recopila una demostración de las acciones deseadas por el usuario y genera resultados contrafactuales buscando todas las características en el espacio que muestran lo que se debe cambiar para que el robot tenga éxito.
El sistema muestra estos contrafactos al usuario y solicita comentarios para determinar qué conceptos visuales no afectan la acción deseada. Luego utiliza esa retroalimentación humana para generar muchas demostraciones avanzadas nuevas.
De esta manera, el usuario podría demostrar cómo coger una taza, pero el sistema crearía demostraciones mostrando la acción deseada con miles de tazas diferentes cambiando de color. Estos datos se utilizan para ajustar el robot.
Crear explicaciones contrafactuales y solicitar retroalimentación del usuario son fundamentales para el éxito de la técnica, dice Peng.
Del pensamiento humano al pensamiento robótico
Debido a que su trabajo tiene como objetivo incluir a los humanos en el circuito de entrenamiento, los investigadores probaron su técnica con usuarios humanos. Primero realizaron un estudio en el que preguntaron a las personas si las explicaciones contrafácticas les ayudarían a identificar elementos que podrían cambiarse sin restar valor a la tarea.
«Estaba muy claro desde el principio. Los humanos son muy buenos en este tipo de pensamiento contrafáctico. Y este paso contrafactual hace posible traducir el pensamiento humano en pensamiento robótico de una manera significativa”, afirma.
Luego aplicaron su marco a tres simulaciones en las que los robots tenían la tarea de navegar hasta un objeto objetivo, tomar una llave y abrir una puerta, y tomar un objeto deseado y luego colocarlo sobre una mesa. En cualquier caso, su método permitió que el robot aprendiera más rápido que otras técnicas y requirió menos demostración por parte de los usuarios.
Los investigadores esperan poder probar este marco en robots reales en el futuro. También quieren centrarse en reducir el tiempo que le toma al sistema crear nuevos datos utilizando modelos generativos de aprendizaje automático.
“Queremos que los robots hagan lo que hacen los humanos y queremos que lo hagan de una manera semánticamente significativa. Las personas tienden a operar en este espacio abstracto donde no piensan en cada característica de una imagen. «En última instancia, se trata de permitir que un robot aprenda una buena representación similar a la humana en un nivel abstracto», dice Peng.
Esta investigación está respaldada en parte por una beca de investigación para graduados de la Fundación Nacional de Ciencias, Open Philanthropy, una beca de IA/ML de Apple, Hyundai Motor Corporation, el laboratorio de IA Watson del MIT-IBM y el Instituto de Inteligencia Artificial e Interacciones Fundamentales de la Fundación Nacional de Ciencias.
[ad_2]