[ad_1]
Su lista de tareas diarias probablemente sea bastante simple: lavar los platos, hacer la compra y otras pequeñas cosas. Es poco probable que hayas escrito «recoger el primer plato sucio» o «lavar el plato con una esponja» porque cada uno de estos pequeños pasos dentro de la tarea parece intuitivo. Si bien podemos realizar cada paso de forma rutinaria y sin pensarlo mucho, un robot requiere un plan complejo con esquemas más detallados.
El Improbable AI Lab del MIT, un grupo dentro del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), ha ayudado a estas máquinas con un nuevo marco multimodal: Compositional Foundation Models for Hierarchical Planning (HiP), que desarrolla planes detallados y factibles utilizando la experiencia en tres Diferentes modelos fundacionales. Al igual que GPT-4 de OpenAI, el modelo base sobre el que se construyeron ChatGPT y Bing Chat, estos modelos base se entrenan con cantidades masivas de datos para aplicaciones como generación de imágenes, traducción de texto y robótica.
A diferencia de RT2 y otros modelos multimodales que se entrenan con datos emparejados de visión, habla y acción, HiP utiliza tres modelos base diferentes, cada uno de ellos entrenado con diferentes modalidades de datos. Cada modelo básico captura una parte diferente del proceso de toma de decisiones y luego trabaja en conjunto cuando llega el momento de tomar decisiones. HiP elimina la necesidad de acceder a datos combinados de visión, habla y acción que son difíciles de obtener. HiP también hace que el proceso de argumentación sea más transparente.
Lo que se considera una tarea diaria para un ser humano puede ser el «objetivo a largo plazo» de un robot -un objetivo de alto nivel que requiere que primero se tomen muchos pasos más pequeños- y que requiere datos suficientes para planificar, comprender y ejecutar objetivos. Si bien los investigadores de visión por computadora han intentado construir modelos de referencia monolíticos para este problema, combinar datos de voz, imágenes y acciones es costoso. En cambio, HiP representa una receta multimodal diferente: un trío que integra de manera rentable inteligencia lingüística, física y ambiental en un robot.
«Los modelos básicos no tienen por qué ser monolíticos», afirma el investigador de IA de NVIDIA, Jim Fan, que no participó en el trabajo. “Este trabajo divide la compleja tarea de la planificación de agentes encarnados en tres modelos constituyentes: un razonamiento lingüístico, un modelo del mundo visual y un planificador de acciones. Hace que un problema difícil de toma de decisiones sea más comprensible y transparente”.
El equipo cree que su sistema podría ayudar a estas máquinas a realizar tareas domésticas, como guardar un libro o poner un recipiente en el lavavajillas. Además, HiP podría ayudar con tareas de diseño y fabricación de varios pasos, como apilar y colocar diferentes materiales en pedidos específicos.
Revisado por HiP
El equipo de CSAIL probó la nitidez de HiP en tres tareas de manipulación y superó a marcos comparables. El sistema se basa en desarrollar planes inteligentes que se adaptan a la nueva información.
Primero, los investigadores le pidieron que apilara bloques de diferentes colores uno encima del otro y luego colocara otros cerca. El problema: debido a que algunos de los colores correctos no estaban disponibles, el robot tuvo que colocar bloques blancos en una bandeja de pintura para pintarlos. HiP a menudo se ha adaptado estrechamente a estos cambios, especialmente en comparación con sistemas de programación de tareas de vanguardia como Transformer BC y Action Difusor, ajustando sus cronogramas para apilar y colocar cada cuadrado según sea necesario.
Otra prueba: coloque elementos como dulces y un martillo en una caja marrón ignorando otros elementos. Algunos de los elementos que debían trasladarse estaban sucios, por lo que HiP ajustó sus planos y los colocó en una caja de limpieza y luego en el contenedor marrón. En una tercera demostración, el robot pudo ignorar objetos innecesarios para completar objetivos secundarios en la cocina, como abrir un microondas, guardar una tetera y encender una luz. Algunos de los pasos indicados ya se habían completado, por lo que el robot se adaptó omitiendo estas instrucciones.
Una jerarquía de tres niveles
El proceso de planificación de tres etapas de HiP funciona de forma jerárquica y brinda la capacidad de entrenar previamente cada uno de sus componentes en varios conjuntos de datos, incluida información no robótica. Al final de esta secuencia hay un modelo de lenguaje grande (LLM) que comienza a generar ideas capturando toda la información simbólica requerida y desarrollando un plan de tarea abstracto. Utilizando el sentido común que se encuentra en Internet, el modelo divide su objetivo en subobjetivos. Por ejemplo, “preparar una taza de té” se convierte en “llenar una tetera con agua”, “hervir la tetera” y las acciones posteriores requeridas.
«Todo lo que queremos hacer es aprovechar los modelos previamente entrenados existentes y conectarlos con éxito», dice Anurag Ajay, estudiante de posgrado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y socio de CSAIL. “En lugar de presionar para que un modelo lo haga todo, combinamos múltiples modelos que utilizan diferentes modalidades de datos de Internet. Cuando se usan juntos, ayudan en la toma de decisiones robótica y potencialmente pueden ayudar con tareas en hogares, fábricas y sitios de construcción”.
Estos modelos también requieren algún tipo de “ojos” para comprender el entorno en el que operan y ejecutar correctamente cada subobjetivo. El equipo utilizó un gran modelo de difusión de vídeo para complementar la planificación inicial del LLM, que recopila información geométrica y física sobre el mundo a partir de imágenes de Internet. El modelo de video, a su vez, genera un plan histórico de observación y refina la estructura del LLM para incorporar nuevos conocimientos físicos.
Este proceso, llamado refinamiento iterativo, permite a HiP reflexionar sobre sus ideas y obtener comentarios en cada etapa para crear un diseño más práctico. El flujo de retroalimentación es similar a escribir un artículo, donde un autor puede enviar su borrador a un editor y el editor revisa y finaliza estas versiones revisadas para cualquier cambio final.
En este caso, en la cima de la jerarquía hay un modelo de acción egocéntrico, o una secuencia de imágenes en primera persona que infieren qué acciones deben llevarse a cabo en función del entorno. En esta fase, el plan de observación del modelo de vídeo se mapea sobre el espacio visible para el robot y ayuda a la máquina a decidir cómo realizar cada tarea dentro del objetivo a largo plazo. Cuando un robot usa HiP para preparar té, significa que ha determinado exactamente dónde están la tetera, el fregadero y otros elementos visuales clave y comienza a completar cada subobjetivo.
Sin embargo, el trabajo multimodal está limitado por la falta de modelos básicos de vídeo de alta calidad. Una vez disponibles, podrían conectarse a los pequeños modelos de vídeo de HiP para mejorar aún más la predicción de secuencias visuales y la generación de acciones robóticas. Una versión de mayor calidad también reduciría los requisitos de datos actuales de los modelos de vídeo.
Sin embargo, el enfoque del equipo de CSAIL utilizó sólo una pequeña cantidad de datos en general. Además, entrenar HiP fue económico y demostró el potencial de utilizar modelos de referencia fácilmente disponibles para completar tareas a largo plazo. “Lo que Anurag ha demostrado es una prueba de concepto de cómo podemos combinar modelos entrenados en tareas y modalidades de datos independientes en modelos para la planificación de robots. En el futuro, HiP podría ampliarse con modelos previamente entrenados que puedan procesar el tacto y el sonido para crear mejores planes”, afirma el autor principal Pulkit Agrawal, profesor asistente de EECS del MIT y director del Improbable AI Lab. El grupo también está considerando utilizar HiP para resolver tareas de robótica a largo plazo en el mundo real.
Ajay y Agrawal son los autores principales de un artículo que describe el trabajo. A ellos se unen los profesores del MIT y los investigadores principales del CSAIL, Tommi Jaakkola, Joshua Tenenbaum y Leslie Pack Kaelbling; Akash Srivastava, socio de investigación de CSAIL y director de investigación del MIT-IBM AI Lab; los estudiantes de posgrado Seungwook Han y Yilun Du ’19; el ex postdoctorado Abhishek Gupta, ahora profesor asistente en la Universidad de Washington; y el ex estudiante de posgrado Shuang Li PhD ’23.
El trabajo del equipo fue apoyado en parte por la Fundación Nacional de Ciencias, la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU., la Oficina de Investigación del Ejército de EE. UU., la Oficina de Investigación Naval de Iniciativas de Investigación Universitaria Multidisciplinaria de EE. UU. y el Laboratorio de IA Watson del MIT-IBM. Sus resultados se presentaron en la Conferencia de 2023 sobre sistemas de procesamiento de información neuronal (NeurIPS).
[ad_2]