[ad_1]
Internet contiene una enorme cantidad de vídeos disponibles públicamente de los que podemos aprender. Puedes ver a una persona hacer una hermosa presentación, un artista digital dibujar una hermosa puesta de sol y un jugador de Minecraft construir una casa intrincada. Sin embargo, estos vídeos sólo proporcionan un registro de ello. Qué sucedió, pero no exactamente Cómo Esto se ha logrado, lo que significa que no sabes el orden exacto de los movimientos del mouse y las teclas presionadas. Si queremos construir grandes modelos base en estos dominios, como lo hicimos en el lenguaje con GPT, esta falta de etiquetas de acción presenta un nuevo desafío que no existe en el dominio del lenguaje, donde las «etiquetas de acción» son solo las siguientes palabras en una Oración.
Para explotar la riqueza de datos de vídeo sin etiquetar disponibles en Internet, presentamos un método novedoso pero sencillo de aprendizaje por imitación semisupervisado: Video PreTraining (VPT). Comenzamos recopilando un pequeño conjunto de datos de los contratistas, donde registramos no solo sus videos sino también las acciones que realizan, en nuestro caso, pulsaciones de teclas y movimientos del mouse. Utilizando estos datos, entrenamos un modelo de dinámica inversa (IDM) que predice las acciones tomadas en cada paso del video. Lo importante es que el IDM pueda utilizar el tiempo pasado. y futuro Información para adivinar la acción en cada paso. Esta tarea es mucho más simple y, por lo tanto, requiere muchos menos datos que la tarea de clonación conductual de predecir acciones determinadas. Sólo imágenes de vídeo pasadasEsto requiere inferir qué quiere hacer la persona y cómo lograrlo. Luego podemos utilizar el IDM capacitado para etiquetar un conjunto de datos mucho más grande de videos en línea y aprender a actuar mediante la clonación de comportamiento.
[ad_2]