[ad_1]
Enseñar a una máquina a reconocer las acciones humanas tiene muchas aplicaciones potenciales, p. B. la detección automática de trabajadores que caen en un sitio de construcción, o la capacidad de un robot doméstico inteligente para interpretar los gestos de un usuario.
Para hacer esto, los investigadores entrenan modelos de aprendizaje automático en grandes conjuntos de datos de videoclips que muestran a personas realizando acciones. No solo es costoso y tedioso recopilar y etiquetar millones o miles de millones de videos, sino que los clips a menudo contienen información confidencial, como rostros de personas o placas de automóviles. El uso de estos videos también puede violar las leyes de derechos de autor o de privacidad. Y eso supone que los datos de video están disponibles públicamente en primer lugar: muchos conjuntos de datos son propiedad de empresas y no son de uso gratuito.
Entonces, los investigadores están recurriendo a conjuntos de datos sintéticos. Estos son creados por una computadora usando modelos 3D de escenas, objetos y personas para crear rápidamente muchos clips diferentes de acciones específicas, sin los posibles problemas de derechos de autor o preocupaciones éticas que vienen con los datos reales.
Pero, ¿los datos sintéticos son tan “buenos” como los datos reales? ¿Qué tan bien se desempeña un modelo entrenado con estos datos cuando se le pide que clasifique acciones humanas reales? Un equipo de investigadores del MIT, MIT-IBM Watson AI Lab y la Universidad de Boston intentaron responder a esta pregunta. Crearon un conjunto de datos sintéticos de 150 000 videoclips que capturaban una amplia gama de acciones humanas, que usaron para entrenar modelos de aprendizaje automático. Luego les mostraron a estos modelos seis conjuntos de videos del mundo real para ver qué tan bien podían aprender a reconocer la acción en esos clips.
Los investigadores encontraron que los modelos entrenados sintéticamente funcionaron incluso mejor que los modelos entrenados con datos reales en videos con menos objetos de fondo.
Este trabajo podría ayudar a los investigadores a utilizar conjuntos de datos sintéticos de manera que los modelos logren una mayor precisión en tareas del mundo real. También podría ayudar a los científicos a identificar qué aplicaciones de aprendizaje automático son las más adecuadas para la capacitación en datos sintéticos, abordando algunas de las preocupaciones éticas, de privacidad y de derechos de autor del uso de conjuntos de datos reales.
“El objetivo final de nuestra investigación es reemplazar el preentrenamiento de datos reales con el preentrenamiento de datos sintéticos. La creación de una acción en datos sintéticos tiene un costo, pero una vez realizada, puede crear una cantidad ilimitada de imágenes o videos cambiando la pose, la iluminación, etc. Esa es la belleza de los datos sintéticos”, dice Rogerio Feris, científico principal y gerente del MIT-IBM Watson AI Lab y coautor de un artículo que detalla esta investigación.
El artículo fue escrito por el autor principal Yo-whan «John» Kim ’22; Aude Oliva, Directora de Compromiso Estratégico de la Industria en MIT Schwarzman College of Computing, directora de MIT de MIT-IBM Watson AI Lab y Científica Investigadora Principal en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y siete más. Los resultados de la investigación se presentarán en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Creación de un conjunto de datos sintéticos
Los investigadores comenzaron a compilar un nuevo conjunto de datos utilizando tres conjuntos de datos disponibles públicamente de videoclips sintéticos que capturan acciones humanas. Su conjunto de datos, llamado Preentrenamiento y Transferencia de Acción Sintética (SynAPT), contenía 150 categorías de acción con 1000 videoclips por categoría.
Eligieron tantas categorías de acción como fuera posible, tales como: B. personas saludando o cayendo al suelo, dependiendo de si había clips disponibles que contenían datos de video limpios.
Después de preparar el conjunto de datos, lo usaron para entrenar previamente tres modelos de aprendizaje automático para reconocer las acciones. El entrenamiento previo entrena a un modelo en una tarea para darle una ventaja en el aprendizaje de otras tareas. Inspirado en la forma en que aprenden los humanos (reutilizamos el conocimiento antiguo cuando aprendemos algo nuevo), el modelo preentrenado puede usar los parámetros ya aprendidos para aprender una nueva tarea con un nuevo conjunto de datos de manera más rápida y efectiva.
Probaron los modelos preentrenados en seis conjuntos de datos de clips de video reales, cada uno de los cuales capturó clases de acciones que diferían de las de los datos de entrenamiento.
Los investigadores se sorprendieron al ver que los tres modelos sintéticos superaron a los modelos entrenados con videoclips reales en cuatro de los seis conjuntos de datos. Su precisión fue mayor en conjuntos de datos que contenían videoclips con «baja distorsión de escena-objeto».
La baja distorsión de escena a objeto significa que el modelo no puede ver la acción al mirar el fondo u otros objetos en la escena; tiene que enfocarse en la acción misma. Por ejemplo, si el modelo tiene la tarea de clasificar las poses de buceo en videoclips de personas saltando a una piscina, no puede identificar una pose mirando el agua o los azulejos de la pared. Debe centrarse en el movimiento y la posición de la persona para clasificar la acción.
«En videos con poca distorsión de escena a objeto, la dinámica temporal de las acciones es más importante que la apariencia de los objetos o el fondo, y eso parece capturarse bien con datos sintéticos», dice Feris.
“Un alto sesgo de escena-objeto en realidad puede actuar como un obstáculo. El modelo podría clasificar erróneamente una acción al mirar un objeto, no la acción en sí misma, lo que puede confundir al modelo”, explica Kim.
aumento del rendimiento
Sobre la base de estos resultados, los investigadores planean incluir más clases de acción y plataformas de video sintético adicionales en el trabajo futuro y, finalmente, crear un catálogo de modelos entrenados previamente con datos sintéticos, dice el coautor Rameswar Panda, investigador asociado de IBM Watson del MIT. laboratorio de IA.
«Queremos construir modelos que funcionen de manera muy similar o incluso mejor que los modelos existentes en la literatura, pero sin estar limitados por esos sesgos o preocupaciones de seguridad», agrega.
También quieren combinar su trabajo con la investigación destinada a generar videos sintéticos más precisos y realistas que podrían mejorar el rendimiento de los modelos, dice SouYoung Jin, coautor y postdoctorado de CSAIL. También está interesada en explorar cómo los modelos pueden aprender de manera diferente cuando se entrenan con datos sintéticos.
“Usamos conjuntos de datos sintéticos para evitar problemas de privacidad o sesgos contextuales o sociales, pero ¿qué aprende realmente el modelo? ¿Es aprender algo que es imparcial?”, dice ella.
Después de demostrar este uso potencial del video sintético, esperan que otros investigadores se basen en su trabajo.
“Si bien hay un costo menor para obtener datos sintéticos bien anotados, actualmente no tenemos un conjunto de datos que compita en tamaño con los conjuntos de datos de video real anotados más grandes. Al discutir los diversos costos y preocupaciones con videos del mundo real y demostrar la efectividad de los datos sintéticos, esperamos motivar los esfuerzos en esta dirección», agrega el coautor Samarth Mishra, estudiante de posgrado en la Universidad de Boston (BU).
Los coautores adicionales son Hilde Kühne, profesora de Ciencias de la Computación en la Universidad Goethe de Alemania y profesora asociada en el MIT-IBM Watson AI Lab; Leonid Karlinsky, investigador asociado de MIT-IBM Watson AI Lab; Venkatesh Saligrama, Profesor de la Facultad de Ingeniería Eléctrica e Informática de la BU; y Kate Saenko, profesora asociada en el Departamento de Ciencias de la Computación en BU y profesora asesora en MIT-IBM Watson AI Lab.
Esta investigación fue apoyada por la Agencia de Proyectos de Investigación Avanzada de Defensa LwLL y el MIT-IBM Watson AI Lab y sus empresas miembro Nexplore y Woodside.
[ad_2]