Los mundos virtuales hiperrealistas se consideran las mejores escuelas de conducción para vehículos autónomos (AV), ya que han demostrado ser bancos de pruebas fértiles para probar escenarios de conducción peligrosos de forma segura. Tesla, Waymo y otras empresas de vehículos autónomos dependen en gran medida de los datos para habilitar simuladores fotorrealistas propietarios y costosos, ya que probar y recopilar datos matizados de choques I-fast no suele ser la forma más fácil o deseable de recrearlos.
Con ese fin, los científicos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han desarrollado VISTA 2.0, un motor de simulación basado en datos que permite que los vehículos aprendan a conducir en el mundo real y se recuperen de escenarios de cuasi accidentes. Además, todo el código se pone a disposición del público.
“Hoy en día, solo las empresas tienen software como el tipo VISTA 2.0 de entornos y capacidades de simulación, y ese software es propietario. Con este lanzamiento, la comunidad de investigación tiene acceso a una nueva y poderosa herramienta para acelerar la investigación y el desarrollo de controles adaptables robustos para la conducción autónoma”, dijo la profesora del MIT y directora de CSAIL, Daniela Rus, autora principal de un artículo sobre la investigación.
VISTA 2.0 se basa en el modelo anterior del equipo, VISTA, y se diferencia fundamentalmente de los simuladores AV existentes en que se basa en datos, lo que significa que se creó a partir de datos reales y se volvió fotorrealista, lo que permite la transferencia directa a la realidad. Si bien la iteración inicial solo admitía el seguimiento de un solo automóvil con un sensor de cámara, lograr una simulación basada en datos de alta fidelidad requería repensar los fundamentos de cómo se pueden sintetizar varios sensores e interacciones de comportamiento.
Ingrese a VISTA 2.0: un sistema basado en datos capaz de simular tipos de sensores complejos y escenarios e intersecciones masivamente interactivos a gran escala. Con muchos menos datos que los modelos anteriores, el equipo pudo entrenar vehículos autónomos que podrían ser significativamente más robustos que los entrenados con grandes cantidades de datos del mundo real.
«Este es un gran salto en las capacidades de simulación basada en datos para vehículos autónomos, lo que aumenta el alcance y la capacidad para manejar una mayor complejidad de conducción», dijo Alexander Amini, estudiante de doctorado de CSAIL y coautor principal de dos nuevos artículos. junto con su compañero estudiante de doctorado Tsun-Hsuan Wang. «VISTA 2.0 demuestra la capacidad de simular datos de sensores mucho más allá de las cámaras 2D RGB, pero también lidars 3D de dimensiones extremadamente altas con millones de puntos, cámaras basadas en eventos con sincronización irregular e incluso escenarios interactivos y dinámicos con otros vehículos».
El equipo pudo escalar la complejidad de las tareas de conducción interactiva para cosas como adelantar, seguir y negociar, incluidos escenarios de múltiples agentes en entornos altamente fotorrealistas.
Entrenar modelos de IA para vehículos autónomos implica forraje difícil de asegurar para varios tipos de casos extremos y escenarios extraños y peligrosos, ya que la mayoría de nuestros datos son (afortunadamente) solo la vida cotidiana común y corriente. Lógicamente, no podemos simplemente chocar contra otros autos solo para enseñarle a una red neuronal a no chocar contra otros autos.
Recientemente, ha habido un cambio de entornos de simulación más clásicos diseñados por humanos a aquellos creados a partir de datos del mundo real. Estos últimos tienen un fotorrealismo inmenso, pero los primeros pueden modelar fácilmente cámaras virtuales y lidars. Con este cambio de paradigma, ha surgido una pregunta clave: ¿Puede la riqueza y complejidad de todos los sensores que requieren los vehículos autónomos, como B. ¿Se pueden sintetizar con precisión las cámaras Lidar y basadas en eventos, que son más escasas?
Los datos del sensor Lidar son mucho más difíciles de interpretar en un mundo basado en datos: está tratando de generar efectivamente nuevas nubes de puntos 3D con millones de puntos, solo a partir de vistas dispersas del mundo. Para sintetizar nubes de puntos lidar 3D, el equipo usó los datos recopilados del automóvil, los proyectó desde los datos lidar en un espacio 3D y luego hizo que un nuevo vehículo virtual condujera localmente desde donde se encontraba el vehículo original. Finalmente, proyectaron toda esta información sensorial de regreso al campo de visión de este nuevo vehículo virtual utilizando redes neuronales.
Junto con la simulación de cámaras basadas en eventos que funcionan a velocidades superiores a los mil eventos por segundo, el simulador no solo pudo simular esta información multimodal, sino todo en tiempo real, lo que permitió entrenar redes neuronales fuera de línea, pero también probar en línea en el automóvil en configuraciones de realidad aumentada para evaluaciones confiables. «La cuestión de si la simulación multisensor de este nivel de complejidad y fotorrealismo sería posible en el campo de la simulación basada en datos era una pregunta muy abierta», dice Amini.
Esto convierte la autoescuela en una fiesta. En la simulación, puede moverse, tener diferentes tipos de controladores, simular diferentes tipos de eventos, crear escenarios interactivos y simplemente usar vehículos nuevos que ni siquiera estaban en los datos originales. Probaron el seguimiento de carril, el cambio de carril, el seguimiento de automóviles y escenarios más estrictos como adelantamientos estáticos y dinámicos (ver obstáculos y conducir para evitar chocar con ellos). Tanto los agentes reales como los simulados interactúan con la multiagencia, y se pueden insertar nuevos agentes en la escena y controlarlos de la forma que desee.
Cuando el equipo llevó su auto a escala al «desierto», también conocido como Devens, Massachusetts, vieron la transferencia instantánea de los resultados, tanto los fracasos como los éxitos. También pudieron demostrar la gran palabra mágica de los modelos de coches autónomos: «robustos». Demostraron que los AV completamente entrenados en VISTA 2.0 eran lo suficientemente robustos en el mundo real para lidiar con esta esquiva secuencia de errores desafiantes.
Bueno, una barandilla en la que confían los humanos que aún no se puede simular son las emociones humanas. El botón de confirmación parpadeante, el gesto con la mano o el saludo amistoso son el tipo de matices que el equipo espera implementar en el trabajo futuro.
«El algoritmo central de esta investigación es cómo podemos construir un mundo totalmente sintético para el aprendizaje y la autonomía a partir de un conjunto de datos», dice Amini. “Es una plataforma que creo que algún día podría extenderse a través de la robótica en muchos ejes diferentes. No solo la conducción autónoma, sino muchas áreas que dependen de la visión y el comportamiento complejo. Estamos emocionados de lanzar VISTA 2.0 para ayudar a la comunidad a recopilar sus propios conjuntos de datos y convertirlos en mundos virtuales donde pueden simular directamente sus propios vehículos autónomos virtuales, conducir en esos terrenos virtuales, entrenar vehículos autónomos en esos mundos y luego transferirlos directamente. hasta autos autónomos reales y completos”.
Amini y Wang coescribieron el artículo con Zhijian Liu, estudiante de posgrado CSAIL del MIT; Igor Gilichensky, Profesor Asistente de Ciencias de la Computación en la Universidad de Toronto; Wilko Schwarting, investigador de IA y MIT CSAIL PhD ’20; Song Han, profesor asociado del Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT; Sertac Karaman, Profesor Asociado de Aeroespacial en el MIT; y Daniela Rus, profesora del MIT y directora de CSAIL. Los investigadores presentaron el trabajo en la Conferencia Internacional IEEE sobre Robótica y Automatización (ICRA) en Filadelfia.
Este trabajo fue apoyado por la Fundación Nacional de Ciencias y el Instituto de Investigación de Toyota. El equipo reconoce el apoyo de NVIDIA al donar Drive AGX Pegasus.