El sistema de inteligencia artificial de texto a video más loco hasta el momento (con video)

[ad_1]

26 de enero de 2024

(noticias nanowerk) Lo que alguna vez fue pura fantasía de ciencia ficción, la capacidad de generar automáticamente videos realistas y completamente formados a partir de indicaciones de texto se ha acercado más a la realidad gracias a los rápidos avances en inteligencia artificial en los últimos años. Sin embargo, modelar la complejidad y fluidez de los movimientos naturales continúa planteando desafíos incluso para los principales modelos de síntesis de vídeo. Las inconsistencias temporales todavía se manifiestan a menudo como molestos artefactos visuales.

Ahora, los investigadores de inteligencia artificial de Google están proponiendo un innovador diseño de modelo de texto a video que eleva significativamente el nivel de una producción coherente y de alta fidelidad. (Lea el artículo aquí: “Lumiere: Un modelo de difusión espacio-temporal para la generación de vídeo”)

El modelo, llamado Lumiere, representa un avance conceptual basado en una arquitectura unificada de extremo a extremo que genera videos completos directamente en lugar de depender de canales de múltiples etapas. Este enfoque de un solo paso facilita el aprendizaje de patrones de movimiento globalmente consistentes que eran difíciles de capturar con métodos anteriores que dependían demasiado de una optimización explícita y que requería mucho tiempo entre fotogramas clave. Los módulos especiales de procesamiento espacio-temporal de Lumiere también promueven la coherencia temporal, que es crucial para la plausibilidad.

Durante la evaluación, Lumiere produjo clips de 5 segundos a 16 cuadros por segundo que tenían una calidad de movimiento y estabilidad temporal significativamente mayores que los modelos actuales de conversión de texto a video de última generación, al tiempo que reducían significativamente los artefactos visibles. También demostró capacidades de generalización ventajosas, ubicándose muy por encima de las alternativas comerciales en métricas clave de similitud de videos. Por lo tanto, Lumiere representa un avance notable en una tarea de aprendizaje automático extremadamente exigente que tiene el potencial de revolucionar pronto los flujos de trabajo creativos.

Durante las pruebas, Lumiere logró una preferencia de 12 a 17 puntos sobre las principales líneas académicas ImagenVideo y AnimateDiff en dos evaluaciones alternativas de elección forzada donde los usuarios eligieron el video superior en términos de calidad y movimiento. También superó a las alternativas comerciales, superando a Gen-2 por más de 20 puntos. Además, Lumiere demostró una fuerte capacidad de generalización cero en el conjunto de datos de referencia UCF101, que compite con los modelos actuales de texto a video de última generación, logrando una distancia de video Fréchet de 152 y una puntuación inicial de 41,2.

Lumiere aprovecha una arquitectura de red neuronal avanzada que genera directamente vídeos completos en una sola pasada, en lugar de depender de una cascada de módulos separados para llenar fotogramas entre fotogramas clave remotos. Este enfoque unificado de extremo a extremo permite que el sistema aprenda patrones de movimiento globalmente consistentes con los que los métodos anteriores habían tenido problemas. Para lograr coherencia temporal, los investigadores también utilizan bloques de procesamiento temporal especiales en la red.

En el corazón de Lumiere se encuentra una U-Net espacio-temporal (STUNet) que realiza un muestreo ascendente y descendente espacial y, fundamentalmente, temporal de videos en múltiples escalas de tiempo. Esto hace que sea más fácil procesar y aprender de manera eficiente movimientos suaves durante toda la duración de los clips generados. STUNet concentra la mayoría de los cálculos en una representación espacio-temporal compacta del video para mejorar el modelado. Lumiere también integra módulos de procesamiento temporal dedicados en STUNet para promover aún más la coherencia. Esta arquitectura unificada de extremo a extremo es fundamental para la capacidad de Lumiere de sintetizar videos con mayor calidad visual, fidelidad de movimiento y consistencia temporal en comparación con los canales de múltiples etapas de enfoques anteriores de texto a video.

Durante las pruebas, Lumiere obtuvo mejores resultados que los principales modelos académicos y comerciales de referencia, incluidos ImagenVideo, ZeroScope y AnimateDiff, en métricas clave que evalúan la calidad del vídeo, el movimiento y la orientación del texto. También demostró una fuerte generalización cero en un conjunto de datos de referencia estándar. El examen cualitativo muestra que Lumiere crea movimientos de objetos complicados que no estaban presentes en ediciones anteriores de texto a video.

Fundamentalmente, Lumiere evita mejor las inconsistencias temporales que pueden generar artefactos molestos en los videos generados al sintetizar videos completos en una sola pasada en lugar de llenar los espacios entre fotogramas clave predefinidos. Los investigadores sugieren que los arquitectos de futuros modelos de IA de vídeo concentren de manera similar los recursos informáticos en una síntesis de vídeo coherente de extremo a extremo en lugar de depender de canales de múltiples etapas.

Lo que cabe destacar es que Lumiere sobresale en diversas tareas especializadas de edición de vídeo gracias a su enfoque integrado sin modificaciones. Por ejemplo, al condicionar el modelo a una sola imagen inicial, Lumiere puede expandir de manera plausible imágenes individuales en videos. Además, los objetos enmascarados en videos existentes se pueden colorear o reemplazar sin problemas, lo que permite a los usuarios sin experiencia técnica insertar de manera realista elementos generados por computadora en las escenas. Lumiere incluso te permite crear animaciones estilizadas aplicando estilos artísticos al contenido de vídeo generado. Esta flexibilidad promete grandes beneficios para los diferentes creadores de contenido.

Las capacidades presentadas por Lumiere representan un gran avance en la creación de vídeo realista y controlable que parecía inalcanzable hace apenas unos años. Las técnicas detrás de Lumiere acercan el campo mucho más a la IA de video versátil, apoyando tanto a editores profesionales como a usuarios ocasionales. Si el progreso continúa a este ritmo rápido, pronto podrían estar ampliamente disponibles asistentes de creación de videos con todas las funciones.

Sin embargo, como todas las tecnologías de inteligencia artificial que avanzan exponencialmente, Lumiere conlleva el riesgo de ser utilizada indebidamente para crear contenido engañoso o dañino. Los investigadores enfatizan con razón que el desarrollo de mejores métodos de detección junto con nuevas técnicas generativas sigue siendo imperativo. Sin embargo, en general, Lumiere representa un paso emocionante hacia la edición de vídeo creativa y democratizada.

[ad_2]

Subscribe to Updates

What's Hot

El sistema de inteligencia artificial de texto a video más loco hasta el momento (con video)

Related Posts