Entrenamos una red neuronal para jugar Minecraft a través de Video PreTraining (VPT) en un enorme conjunto de datos de video sin etiquetar del juego humano de Minecraft mientras usamos solo una pequeña cantidad de datos de contratistas etiquetados. Con un ajuste fino, nuestro modelo puede aprender a fabricar herramientas de diamante, una tarea que normalmente lleva más de 20 minutos (24 000 acciones) para humanos experimentados. Nuestro modelo utiliza la interfaz humana nativa de pulsaciones de teclas y movimientos del mouse, lo que lo hace bastante general y un paso hacia los agentes generales que usan computadoras.
leer papel
Ver códigos y pesos de modelos
Competencia MineRL
Internet contiene una enorme cantidad de videos disponibles públicamente para que aprendamos. Puedes ver a una persona hacer una hermosa presentación, un artista digital dibujar una hermosa puesta de sol y un jugador de Minecraft construir una casa intrincada. Sin embargo, estos videos solo ofrecen una grabación del mismo. Qué sucedió, pero no exactamente cómo se ha logrado, es decir, no conoce la secuencia exacta de movimientos del mouse y teclas presionadas. Si queremos construir modelos base grandes en estos dominios, como hicimos en el lenguaje con GPT, esta falta de etiquetas de acción presenta un nuevo desafío que no existe en el dominio del lenguaje, donde las «etiquetas de acción» son simplemente las palabras más cercanas. en una Oración.
Para aprovechar la abundancia de datos de video sin etiquetar disponibles en Internet, presentamos un método de aprendizaje de imitación semisupervisado novedoso pero simple: Video PreTraining (VPT). Comenzamos recopilando un pequeño conjunto de datos de contratistas, en el que no solo grabamos sus videos, sino también las acciones que realizan, que en nuestro caso son pulsaciones de teclas y movimientos del mouse. Con estos datos, entrenamos un modelo de dinámica inversa (IDM) que predice la acción realizada en cada paso del video. Es importante que el IDM pueda usar el pasado y futuro Información para adivinar la acción en cada paso. Esta tarea es mucho más simple y, por lo tanto, requiere muchos menos datos que la tarea de clonación de comportamiento de predecir acciones dadas. Solo fotogramas de vídeo anteriores, que requiere deducir qué quiere hacer la persona y cómo lograrlo. Luego podemos usar el IDM capacitado para etiquetar un conjunto de datos mucho más grande de videos en línea y aprender a actuar a través de la clonación de comportamiento.
Resultados de disparo cero de VPT
Elegimos validar nuestro método en Minecraft porque (1) es uno de los videojuegos más jugados en el mundo y, por lo tanto, tiene una gran cantidad de datos de video disponibles gratuitamente, y (2) está abierto a una variedad de cosas para hacer. de manera similar que en aplicaciones reales como el uso de la computadora. A diferencia del trabajo anterior en Minecraft, que utiliza espacios de acción simplificados para facilitar la exploración, nuestra IA utiliza la interfaz humana nativa mucho más general, aunque mucho más difícil: velocidad de fotogramas de 20 Hz con el mouse y el teclado.
Nuestro modelo de clonación basado en el comportamiento (el «Modelo fundamental VPT»), entrenado con 70 000 horas de video en línea etiquetado con IDM, realiza tareas en Minecraft que son difíciles de lograr con el aprendizaje reforzado desde cero. Aprende a talar árboles para recolectar troncos, procesar esos troncos en tablones y luego procesar esos tablones en una mesa de trabajo. Esta secuencia le toma a una persona familiarizada con Minecraft aproximadamente 50 segundos o 1,000 acciones de juego consecutivas.
Además, el modelo realiza otras habilidades complejas que los humanos suelen realizar en el juego, como: B. Nadar, perseguir animales para comer y comer esa comida. También aprendió la habilidad de «saltar pilares», un comportamiento común en Minecraft, donde te incrementas saltando repetidamente y colocando un bloque debajo de ti.
Ajuste fino con clonación de comportamiento
Los modelos básicos están diseñados para tener un amplio perfil de comportamiento y, en general, son apropiados para una variedad de tareas. Para incorporar nuevos conocimientos o especializarse en una distribución más estrecha de tareas, es una práctica común ajustar estos modelos a conjuntos de datos más pequeños y específicos. Como estudio de caso de qué tan bien el modelo base de VPT podría coincidir con los conjuntos de datos posteriores, les pedimos a nuestros contratistas que pasaran 10 minutos jugando en nuevos mundos de Minecraft y construyendo una casa con materiales básicos de Minecraft. Esperábamos que esto reforzara la capacidad del modelo base para realizar de manera confiable habilidades de «juego temprano» como construir estaciones de artesanía. Al afinar este conjunto de datos, no solo vemos una mejora masiva en la ejecución confiable de las habilidades iniciales del juego ya presentes en el modelo base, sino que el modelo afinado también aprende a profundizar aún más en el árbol tecnológico al crear objetos de madera y herramientas de piedra. A veces, incluso vemos la construcción rudimentaria de refugios y el agente que busca en las aldeas, incluidos los cofres de asalto.
Jugabilidad temprana mejorada a través de la afinación de BC
escalado de datos
Quizás la hipótesis más importante de nuestro trabajo es que es mucho más efectivo usar datos de contratistas etiquetados para entrenar un IDM (como parte de la canalización de VPT) que entrenar directamente un modelo fundamental de BC a partir del mismo conjunto de datos de contratistas pequeños. Para validar esta hipótesis, entrenamos modelos fundamentales con cantidades crecientes de datos de 1 a 70 000 horas. Aquellos capacitados con menos de 2000 horas de datos serán capacitados utilizando los datos del contratista con etiquetas de verdad en el terreno recopiladas originalmente para entrenar el IDM, y aquellos capacitados con más de 2000 horas serán capacitados utilizando datos web capacitados, que están marcados con nuestro IDM. Luego tomamos cada modelo de cimentación y lo ajustamos al conjunto de datos de construcción de viviendas descrito en la sección anterior.
Impacto de los datos de entrenamiento de referencia en el ajuste fino
En general, a medida que aumenta la base de datos de los modelos de cimientos, vemos un aumento en las habilidades de elaboración, y solo en la escala de datos más grande vemos el advenimiento de la fabricación de herramientas de piedra.
Ajuste fino con aprendizaje por refuerzo
Si es posible especificar una función de recompensa, el aprendizaje por refuerzo (RL) puede ser un método poderoso para obtener un rendimiento alto, posiblemente incluso sobrehumano. Sin embargo, muchas tareas requieren superar desafíos de exploración difíciles y la mayoría de los métodos de RL abordan estos casualmente prioridades de exploración, p. B. Las bonificaciones de entropía suelen estimular a los modelos para que actúen al azar. El modelo VPT debería ser un precursor mucho mejor de RL, ya que es probable que imitar el comportamiento humano sea mucho más útil que las acciones aleatorias. Le dimos a nuestro modelo la desafiante tarea de recolectar un pico de diamante, una habilidad sin precedentes en Minecraft que se hizo aún más difícil al usar la interfaz humana nativa.
Fabricar un pico de diamante requiere una secuencia larga y complicada de subtareas. Para que esta tarea sea manejable, recompensamos a los agentes por cada elemento de la secuencia.
Descubrimos que una política de RL entrenada a través de la inicialización aleatoria (el método de RL predeterminado) rara vez obtiene una recompensa, nunca aprende a recopilar registros y rara vez recopila palos. En marcado contraste, el ajuste fino de un modelo VPT no solo aprende a fabricar picos de diamantes (lo que sucede en el 2,5 % de los episodios de Minecraft de 10 minutos), sino que incluso tiene una tasa de éxito a nivel humano en la recolección de todos los elementos, lo que conduce a el pico de diamante. Esta es la primera vez que alguien muestra a un agente informático que puede crear herramientas de diamante en Minecraft, lo que lleva a los humanos más de 20 minutos (24,000 acciones) en promedio.
Recompensa a través de episodios
Conclusión
VPT allana el camino para que los agentes hagan esto aprender a actuar viendo los innumerables videos en Internet. En comparación con el modelado de video generativo o los métodos contrastivos, eso solo cedería representante Priors ofrece a VPT la emocionante oportunidad de aprender directamente a escala prioridades de comportamiento en más áreas además del lenguaje. Si bien solo estamos experimentando en Minecraft, el juego es muy abierto y la interfaz humana nativa (ratón y teclado) es muy genérica, por lo que creemos que nuestros resultados son un buen augurio para otras áreas similares, por ejemplo, el uso informático.
Consulte nuestro artículo para obtener más información. También ofrecemos código abierto para los datos de nuestros contratistas, el entorno de Minecraft, el código del modelo y los pesos del modelo que esperamos respalden la exploración futura de VPT. Además, este año somos socio de la competencia MineRL NeurIPS. Los participantes pueden usar y modificar nuestros modelos para tratar de resolver muchas tareas difíciles en Minecraft. Los interesados pueden visitar la web del concurso y competir por un premio cielo azul $100,000 además de un pozo de premios regular de $20,000. Las subvenciones están disponibles para grupos e individuos que se identifican a sí mismos como subrepresentados.