[ad_1]
Este informe técnico se centra en (1) nuestro método para transformar datos visuales de todo tipo en una representación unificada que permite el entrenamiento a gran escala de modelos generativos y (2) la evaluación cualitativa de las capacidades y limitaciones de Sora. Los detalles del modelo y la implementación no se incluyen en este informe.
Muchos trabajos anteriores han explorado el modelado generativo de datos de video utilizando varios métodos, incluidas redes recurrentes,[^1][^2][^3] redes generativas adversarias,[^4][^5][^6][^7] transformadores autorregresivos,[^8][^9] y modelos de difusión.[^10][^11][^12] Estos trabajos suelen centrarse en una categoría limitada de datos visuales, en vídeos más cortos o en vídeos de un tamaño fijo. Sora es un modelo generalista para datos visuales: puede generar vídeos e imágenes de diferentes duraciones, relaciones de aspecto y resoluciones, hasta un minuto completo de vídeo de alta resolución.
[ad_2]