Modelos de generación de vídeo como simuladores del mundo.

[ad_1]

Este informe técnico se centra en (1) nuestro método para transformar datos visuales de todo tipo en una representación unificada que permite el entrenamiento a gran escala de modelos generativos y (2) la evaluación cualitativa de las capacidades y limitaciones de Sora. Los detalles del modelo y la implementación no se incluyen en este informe.

Muchos trabajos anteriores han explorado el modelado generativo de datos de video utilizando varios métodos, incluidas redes recurrentes,^{[^1]}^{[^2]}^{[^3]} redes generativas adversarias,^{[^4]}^{[^5]}^{[^6]}^{[^7]} transformadores autorregresivos,^{[^8]}^{[^9]} y modelos de difusión.^{[^10]}^{[^11]}^{[^12]} Estos trabajos suelen centrarse en una categoría limitada de datos visuales, en vídeos más cortos o en vídeos de un tamaño fijo. Sora es un modelo generalista para datos visuales: puede generar vídeos e imágenes de diferentes duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta resolución.

[ad_2]

Subscribe to Updates

What's Hot

Modelos de generación de vídeo como simuladores del mundo.

Related Posts