[ad_1]
Las plataformas para compartir videos en línea como YouTube necesitan comprender la calidad percibida del video (es decir, la percepción subjetiva de la calidad del video por parte del usuario) para optimizar y mejorar la experiencia del usuario. La evaluación de la calidad de video (VQA) intenta cerrar la brecha entre las señales de video y la calidad perceptiva mediante el uso de modelos matemáticos objetivos para aproximar las opiniones subjetivas de los usuarios. Las métricas de calidad de video tradicionales, como la relación pico de señal a ruido (PSNR) y la fusión de evaluación de métodos múltiples de video (VMAF), se basan en referencias y se enfocan en la diferencia relativa entre el video objetivo y el de referencia. Tales métricas, que funcionan mejor para el contenido creado profesionalmente (por ejemplo, películas), asumen que el video de referencia tiene una calidad impecable y que se puede inferir la calidad absoluta del video de destino a partir de la diferencia relativa.
Sin embargo, la mayoría de los videos que se suben a YouTube son contenido generado por el usuario (UGC, por sus siglas en inglés), lo que presenta nuevos desafíos debido a su notable alta variabilidad en el contenido del video y la calidad original. La mayoría de las cargas de UGC no son impecables, y la misma cantidad de variación relativa podría tener impactos muy diferentes en la calidad de la percepción. Por ejemplo, las personas tienden a ser menos sensibles a las distorsiones de las cargas de baja calidad que las cargas de alta calidad. Por lo tanto, las evaluaciones de calidad basadas en referencias se vuelven imprecisas e inconsistentes cuando se usan para casos de UGC. Además, a pesar del gran volumen de UGC, actualmente hay conjuntos de datos de evaluación de calidad de video UGC (UGC-VQA) limitados con sellos de calidad. Los conjuntos de datos de UGC VQA existentes son pequeños (por ejemplo, LIVE-Qualcomm tiene 208 muestras recopiladas de 54 escenas únicas) en comparación con conjuntos de datos con millones de muestras utilizadas para la clasificación y detección (por ejemplo, ImageNet y YouTube-8M) o no. no tiene suficiente variabilidad de contenido (muestreo sin considerar la información de contenido, como LIVE-VQC y KoNViD-1k).
En Rich Features for Perceptual Quality Assessment of UGC Videos, publicado en CVPR 2021, describimos cómo intentamos resolver el problema de evaluación de calidad de UGC mediante la creación de un modelo de calidad de video universal (UVQ) que es similar a la evaluación de calidad subjetiva. El modelo UVQ utiliza subredes para analizar la calidad de UGC desde información semántica de alto nivel hasta distorsión de píxeles de bajo nivel, y proporciona una evaluación de calidad confiable con justificación (usando etiquetas de calidad integrales e interpretables). Además, para profundizar en la investigación de compresión y VQA de UGC, estamos ampliando el conjunto de datos de UGC de código abierto de YouTube, que contiene 1,5000 muestras de UGC representativas de millones de videos de UGC (distribuidos bajo la licencia Creative Commons) en YouTube. El conjunto de datos actualizado incluye etiquetas de verdad sobre el terreno tanto para los videos originales como para las versiones transcodificadas correspondientes, lo que nos permite comprender mejor la relación entre el contenido del video y su calidad de percepción.
Calificación subjetiva de la calidad del video
Para comprender la calidad de video percibida, utilizamos una plataforma interna de crowdsourcing para recopilar puntajes de opinión promedio (MOS) en una escala de 1 a 5, siendo 1 la calidad más baja y 5 la calidad más alta para casos de uso sin referencia. Recopilamos etiquetas de datos reales del conjunto de datos de UGC de YouTube y categorizamos los factores de UGC que afectan la percepción de la calidad en tres categorías amplias: (1) contenido, (2) distorsión y (3) compresión. Por ejemplo, un video sin contenido significativo no obtendrá MOS de alta calidad. También distorsiones introducidas durante la fase de producción de video y artefactos de compresión de video introducidos por plataformas de terceros, p. B. transcodificación o transmisión, degradará la calidad general.
![]() |
![]() |
MOS= 2.052 | MOS= 4.457 |
Izquierda: Un video sin contenido significativo no obtendrá MOS de alta calidad. Derecha: Un video que muestra un ejercicio intenso muestra un MOS más alto. |
![]() |
![]() |
MOS= 1.242 | MOS= 4.522 |
Izquierda: Un video de juego borroso obtiene un MOS de muy baja calidad. Derecha: un video con representación profesional (alto contraste y bordes nítidos, generalmente introducidos en la etapa de producción de video) muestra un MOS de alta calidad. |
![]() |
![]() |
MOS= 2.372 | MOS= 4.646 |
Izquierda: Un video muy comprimido obtendrá un MOS de baja calidad. Derecha: un video sin artefactos de compresión muestra un MOS de alta calidad. |
Mostramos que el video del juego de la izquierda en la segunda fila de la figura anterior tiene el MOS más bajo (1.2), incluso más bajo que el video sin contenido significativo. Una posible explicación es que los espectadores pueden tener mayores expectativas de calidad de video para los videos que tienen una estructura narrativa clara, como B. los videos de juegos y los artefactos borrosos reducen significativamente la calidad de percepción del video.
Marco del modelo UVQ
Una forma común de evaluar la calidad del video es diseñar funciones sofisticadas y luego asignar esas funciones a un MOS. Sin embargo, diseñar funciones artesanales útiles es difícil y requiere mucho tiempo, incluso para los expertos en el campo. Además, las características artesanales existentes más útiles se han resumido a partir de ejemplos limitados que pueden no funcionar bien en casos de UGC más amplios. Por el contrario, el aprendizaje automático se está volviendo cada vez más importante en UGC-VQA, ya que puede aprender características automáticamente a partir de muestras grandes.
Un enfoque sencillo es entrenar un modelo desde cero en conjuntos de datos de calidad UGC existentes. Sin embargo, esto puede no ser factible ya que hay conjuntos de datos UGC de calidad limitada. Para superar esta limitación, aplicamos un paso de aprendizaje autosupervisado al modelo UVQ durante el entrenamiento. Este paso autosupervisado nos permite aprender funciones integrales relacionadas con la calidad sin MOS de verdad a partir de millones de videos sin procesar.
Sobre la base de las categorías relacionadas con la calidad resumidas del VQA subjetivo, desarrollamos el modelo UVQ con cuatro nuevas subredes. Las primeras tres subredes, que llamamos ContentNet, DistortionNet y CompressionNet, se utilizan para extraer características de calidad (es decir, contenido, distorsión y compresión) y la cuarta subred, llamada AggregationNet, mapea las características extraídas para generar un único valor de calidad. ContentNet está capacitado en el aprendizaje supervisado con etiquetas de contenido específicas de UGC generadas por el modelo YouTube 8M. DistortionNet está capacitado para detectar distorsiones comunes como el desenfoque gaussiano y el ruido blanco en el cuadro original. CompressionNet se enfoca en artefactos de compresión de video cuyos datos de entrenamiento son videos comprimidos a diferentes tasas de bits. CompressionNet se entrena con dos variantes comprimidas del mismo contenido, que se introducen en el modelo para predecir los niveles de compresión correspondientes (con una puntuación más alta para los artefactos de compresión más destacados), con la suposición implícita de que la versión con una tasa de bits más alta tiene un nivel de compresión más bajo.
Las subredes ContentNet, DistortionNet y CompressionNet están entrenadas con muestras grandes sin evaluaciones de calidad de la verdad del terreno. Como la resolución de video también es un factor de calidad importante, las subredes sensibles a la resolución (CompressionNet y DistortionNet) se basan en parches (es decir, cada cuadro de entrada se divide en varios parches inconexos que se procesan por separado), lo que permite capturar todos los detalles. en resolución nativa sin reducción de escala. Las tres subredes extraen rasgos de calidad, que luego son concatenados por la cuarta subred, AggregationNet, para predecir puntajes de calidad utilizando MOS de verdad de campo de dominio de YouTube-UGC.
![]() |
El marco formativo de la UVQ. |
Analizando la calidad del video con UVQ
Después de construir el modelo UVQ, lo usaremos para analizar la calidad de video de las muestras de UGC de YouTube y demostrar que sus subredes pueden proporcionar un puntaje de calidad único junto con indicadores de calidad de alto nivel que pueden ayudarnos a comprender los problemas de calidad. Por ejemplo, DistortionNet detecta varios artefactos visuales, p. como la fluctuación y el desenfoque de la lente, para el video del medio a continuación, y CompressionNet detecta que el video a continuación ha sido muy comprimido.
![]() |
ContentNet asigna etiquetas de contenido con las probabilidades correspondientes entre paréntesis, por ejemplo, automóvil (0,58), vehículo (0,42), automóvil deportivo (0,32), automovilismo (0,18), carreras (0,11). |
![]() |
DistortionNet detecta y categoriza varias distorsiones visuales con las probabilidades correspondientes entre paréntesis, es decir, Jitter (0.112), Cuantificación de color (0.111), Desenfoque de lente (0.108), Reducción de ruido (0.107). |
![]() |
CompressionNet detecta un alto nivel de compresión de 0.892 para el video de arriba. |
Además, UVQ puede proporcionar comentarios basados en parches para identificar problemas de calidad. A continuación, UVQ informa que la calidad del primer parche (parche en el tiempo t=1) es buena con un bajo nivel de compresión. Sin embargo, el modelo identifica fuertes artefactos de compresión en el siguiente parche (parche en el momento t=2).
![]() |
![]() |
![]() |
Parche en el tiempo t = 1 | Parche en el tiempo t = 2 |
nivel de compresión = 0.000 | Nivel de compresión = 0,904 |
UVQ detecta una degradación de calidad repentina (alto nivel de compresión) para un parche local. |
En la práctica, UVQ puede generar un informe de diagnóstico de video que incluye una descripción del contenido (por ejemplo, un videojuego de estrategia), un análisis de distorsión (por ejemplo, el video está borroso o pixelado) y un nivel de compresión (por ejemplo, compresión baja o alta). . A continuación, UVQ informa que la calidad del contenido es buena cuando se analizan las funciones individuales, pero la calidad de compresión y distorsión es deficiente. Cuando se combinan las tres características, la calidad general es media-baja. Vemos que estos resultados se acercan al razonamiento resumido por los expertos de usuarios internos y muestran que UVQ puede razonar a través de puntajes de calidad al tiempo que proporciona un solo puntaje de calidad.
![]() |
Informe diagnóstico UVQ. ContentNet (CT): Videojuego, videojuego de estrategia, World of Warcraft, etc. DistortionNet (DT): Ruido multiplicativo, desenfoque gaussiano, saturación de color, pixelación, etc. CompressionNet (CP): 0,559 (compresión media a alta). Nivel de calidad previsto en [1, 5]: (CT, DT, CP) = (3.901, 3.216, 3.151), (CT+DT+CP) = 3.149 (calidad media a baja). |
Conclusión
Presentamos el modelo UVQ, que genera un informe de puntajes de calidad e información que se puede usar para interpretar la calidad perceptiva de los videos UGC. UVQ aprende rasgos integrales relacionados con la calidad de millones de videos UGC, lo que proporciona una vista consistente de la interpretación de calidad tanto para casos de referencia como de no referencia. Para obtener más información, lea nuestro artículo o visite nuestro sitio web para ver videos de YT UGC y sus datos subjetivos de calidad. También esperamos que el conjunto de datos UGC ampliado de YouTube permita realizar más investigaciones en esta área.
Gracias
Este trabajo fue posible gracias a la colaboración entre varios equipos de Google. Los colaboradores clave incluyen: Balu Adsumilli de YouTube, Neil Birkbeck, Joong Gon Yim y Junjie Ke de Google Research, Hossein Talebi, Peyman Milanfar. Gracias a Ross Wolf, Jayaprasanna Jayaraman, Carena Church y Jessie Lin por sus contribuciones.
[ad_2]