[ad_1]
(noticias nanowerk) Los ingenieros de la Universidad Northwestern han desarrollado un nuevo algoritmo de inteligencia artificial (IA) diseñado específicamente para la robótica inteligente. Al ayudar a los robots a aprender habilidades complejas de forma rápida y confiable, el nuevo método podría mejorar significativamente la practicidad (y la seguridad) de los robots para una variedad de aplicaciones, incluidos automóviles autónomos, drones de reparto, asistentes domésticos y automatización.
El éxito del algoritmo, llamado Aprendizaje por refuerzo de máxima difusión (MaxDiff RL), radica en su capacidad para alentar a los robots a explorar su entorno de la manera más aleatoria posible para obtener diversas experiencias. Esta «aleatoriedad diseñada» mejora la calidad de los datos que los robots recopilan sobre sus propios entornos. Y al utilizar datos de mayor calidad, los robots simulados demostraron un aprendizaje más rápido y eficiente, mejorando su confiabilidad y rendimiento generales.
Cuando se probaron con otras plataformas de IA, los robots simulados que utilizaban el nuevo algoritmo de Northwestern superaron consistentemente a los modelos modernos. De hecho, el nuevo algoritmo funciona tan bien que los robots aprendieron nuevas tareas y luego las realizaron con éxito en un solo intento: la primera vez. Esto contrasta marcadamente con los modelos de IA actuales, que permiten un aprendizaje más lento mediante prueba y error.
La investigación se publica en la revista. Inteligencia artificial natural (“Aprendizaje por refuerzo de máxima difusión”).
«Otros marcos de IA pueden ser algo poco confiables», dijo Thomas Berrueta de Northwestern, quien dirigió el estudio. “A veces tienen éxito total en una tarea, pero otras veces fracasan por completo. Con nuestro marco, si el robot es capaz de completar la tarea, cada vez que lo encienda puede esperar que haga exactamente lo que se le pide. Esto facilita la interpretación de los éxitos y fracasos de los robots, lo cual es crucial en un mundo cada vez más dependiente de la IA”.
Berrueta es miembro presidencial de Northwestern y Ph.D. Candidato en Ingeniería Mecánica en McCormick School of Engineering. El experto en robótica Todd Murphey, profesor McCormick de ingeniería mecánica y asesor de Berrueta, es el autor principal del artículo. Berrueta y Murphey fueron coautores del artículo con Allison Pinosky, también estudiante de posgrado. candidato en el laboratorio de Murphy.
La separación incorpórea
Para entrenar algoritmos de aprendizaje automático, los investigadores y desarrolladores utilizan grandes cantidades de big data que las personas filtran y seleccionan cuidadosamente. La IA aprende de estos datos de entrenamiento, mediante prueba y error hasta lograr resultados óptimos. Si bien este proceso funciona bien para sistemas incorpóreos como ChatGPT y Google Gemini (anteriormente Bard), no funciona para sistemas de inteligencia artificial incorpóreos como los robots. En cambio, los robots recopilan datos ellos mismos, sin el lujo de tener curadores humanos.
«Los algoritmos tradicionales son incompatibles con la robótica de dos maneras», dijo Murphey. “En primer lugar, los sistemas incorpóreos pueden beneficiarse de un mundo en el que las leyes físicas no se aplican. En segundo lugar, los errores individuales no tienen consecuencias. Lo único que importa para las aplicaciones informáticas es que tengan éxito en la mayoría de los casos. En robótica, un solo error podría tener consecuencias catastróficas”.
Para resolver esta discrepancia, Berrueta, Murphey y Pinosky querían desarrollar un algoritmo novedoso que garantizara que los robots recopilen datos de alta calidad sobre la marcha. En esencia, MaxDiff RL ordena a los robots que se muevan de forma más aleatoria para recopilar datos completos y diversos sobre su entorno. Al aprender a través de experiencias aleatorias seleccionadas por ellos mismos, los robots adquieren las habilidades necesarias para realizar tareas útiles.
![NoodleBot](https://www.nanowerk.com/news2/robotics/id65142_1.jpg)
Haz todo bien la primera vez.
Para probar el nuevo algoritmo, los investigadores lo compararon con modelos actuales de última generación. Utilizando simulaciones por computadora, los investigadores pidieron a robots simulados que realizaran una serie de tareas estándar. En general, los robots que utilizan MaxDiff RL aprendieron más rápido que los otros modelos. También realizaron tareas correctamente de manera mucho más consistente y confiable que otros.
Quizás lo más impresionante sea que los robots que utilizaban el método MaxDiff RL a menudo podían realizar una tarea correctamente en un solo intento. Incluso cuando empezaron sin conocimiento.
«Nuestros robots eran más rápidos y ágiles: pudieron generalizar eficazmente lo que habían aprendido y aplicarlo a situaciones nuevas», dijo Berrueta. «Para aplicaciones del mundo real donde los robots no pueden permitirse un tiempo interminable de prueba y error, esto es una gran ventaja».
Dado que MaxDiff RL es un algoritmo general, se puede utilizar para una amplia gama de aplicaciones. Los investigadores esperan que esto resuelva los problemas fundamentales que obstaculizan este campo y, en última instancia, allane el camino para una toma de decisiones fiable en robótica inteligente.
«Esto no sólo debe usarse para vehículos robóticos que se mueven», dijo Pinosky. “También podría usarse para robots estacionarios, como un brazo robótico en una cocina que aprende a cargar el lavavajillas. A medida que las tareas y los entornos físicos se vuelven más complicados, el papel de la encarnación en el proceso de aprendizaje se vuelve aún más importante. Este es un paso importante hacia sistemas reales que realizan tareas más complicadas e interesantes”.
[ad_2]