La respuesta visual a preguntas (VQA) es una tarea útil de aprendizaje automático (ML) que requiere un modelo para responder una pregunta visual sobre una imagen. Lo que lo hace desafiante es su naturaleza multitarea y abierta; Se trata de resolver múltiples preguntas técnicas de investigación en Visión por Computador y Comprensión del Lenguaje Natural al mismo tiempo. Sin embargo, los avances en esta tarea abrirían un amplio abanico de aplicaciones, desde ayudar a personas ciegas y deficientes visuales, o comunicarse con robots, hasta mejorar la experiencia visual del usuario con conocimiento externo.
Los sistemas VQA efectivos y robustos no pueden existir sin datos de entrenamiento de alta calidad, semántica y estilísticamente diversos a gran escala de tripletes de imagen-pregunta-respuesta. Sin embargo, la creación de dichos datos requiere mucho tiempo y es tediosa. Quizás, como era de esperar, la comunidad de VQA se ha centrado más en desarrollar modelos sofisticados que en crear datos escalables.
En All You May Need for VQA are Image Captions, publicado en NAACL 2022, exploramos la generación de datos de VQA mediante el uso de Visual Question Generation con Question Answer Validation (VQ2A), una canalización que funciona reescribiendo una etiqueta declarativa en múltiples pares interrogativos de pregunta-respuesta. Más específicamente, aprovechamos dos activos existentes: (i) datos de imagen a texto a gran escala y (ii) modelos neuronales de texto a texto de gran capacidad, para lograr la generación automática de datos VQA. A medida que el campo ha evolucionado, la comunidad de investigación ha crecido y fortalecido estos activos de forma aislada (para fines generales, como aprender solo texto o representaciones de imagen y texto); juntos pueden lograr más y los adaptamos a los fines de la producción de datos VQA. Descubrimos que nuestro enfoque puede generar pares de preguntas y respuestas con alta precisión y que estos datos se pueden usar con éxito para entrenar modelos VQA para mejorar el rendimiento.
![]() |
![]() |
![]() |
el vq2Una técnica permite la generación a gran escala de datos VQA a partir de leyendas de imágenes reescribiendo cada leyenda en múltiples pares de preguntas y respuestas. |
VQ2Una visión general
El primer paso del VQ2Un enfoque consiste en aplicar heurística basada en el reconocimiento de entidades nombradas, el etiquetado de parte del discurso y reglas definidas manualmente para generar respuestas candidatas a partir del título. Estos candidatos generados son pequeños fragmentos de información que pueden ser temas relevantes sobre los que se pueden hacer preguntas. También agregamos dos respuestas predeterminadas a esta lista, «Sí» y «No», que nos permiten generar preguntas booleanas.
Luego usamos un modelo T5 ajustado para generar preguntas para el candidato, lo que lleva a los siguientes resultados: [question, candidate answer] parejas Luego usamos otro modelo T5 (ajustado para responder preguntas) para filtrar los pares de la más alta calidad pidiéndole que responda la pregunta según la etiqueta. estaba . Es decir, comparamos la respuesta candidata con el resultado de este modelo y, si las dos respuestas son lo suficientemente similares, definimos esa pregunta como de alta calidad y la mantenemos. De lo contrario, lo filtramos.
La idea de usar modelos de generación de preguntas y respuesta a preguntas para verificar la consistencia de ida y vuelta entre sí se ha explorado previamente en otros contextos. por ejemplo q2 utiliza esta idea para evaluar la coherencia fáctica en los diálogos basados en el conocimiento. Al final está el VQ2A El enfoque que se ilustra a continuación puede generar una gran cantidad de [image, question, answer] Trillizos de suficiente calidad para ser utilizados como datos de entrenamiento VQA.
![]() |
VQ2A consta de tres pasos principales: (i) extracción de respuestas candidatas, (ii) generación de preguntas, (iii) respuesta a preguntas y validación de respuestas. |
Resultados
A continuación se muestran dos ejemplos de nuestros datos VQA generados, uno basado en subtítulos COCO escritos por humanos (COCO) y el otro en subtítulos conceptuales recopilados automáticamente (CC3M) que llamamos VQ2A COCO y VQ2A-CC3M. Destacamos la variedad de tipos y estilos de preguntas que son fundamentales para VQA. En general, cuanto más limpias sean las etiquetas (es decir, cuanto más estrechamente relacionadas estén con su imagen emparejada), más precisos serán los tripletes generados. Basado en 800 muestras cada una, 87.3% de VQ2A-COCO y 66,0% VQ2Los evaluadores humanos consideran que A-CC3M es válido, lo que indica que nuestro enfoque puede generar pares de preguntas y respuestas con alta precisión.
![]() |
![]() |
Pares de preguntas y respuestas generados basados en subtítulos COCO (arriba) y leyendas conceptuales (abajo). El resaltado gris indica preguntas donde este es el caso No aparecen en VQAv2, mientras que el resaltado en verde indica aquellos que hacerlo que indica que nuestro enfoque puede generar preguntas novedosas que un conjunto de datos VQA existente no tiene. |
Finalmente, evaluamos nuestros datos generados usándolos para entrenar modelos VQA (aspectos destacados que se muestran a continuación). Observamos que nuestros datos VQA generados automáticamente compiten con los anotados manualmente objetivo datos VQA. Primero, listos para usar, nuestros modelos VQA logran un alto rendimiento en los puntos de referencia objetivo cuando se entrenan solo en nuestros datos generados (azul claro y rojo claro frente a amarillo). Después de ajustar los datos objetivo, nuestros modelos VQA superan fácilmente el entrenamiento solo objetivo en grandes puntos de referencia como VQAv2 y GQA, pero significativamente en el pequeño OK VQA que busca conocimiento (azul oscuro/rojo frente a azul claro/rojo). ).
![]() |
Precisión de VQA en conjuntos de datos de referencia populares. |
Conclusión
¡Todo lo que necesitamos para VQA son subtítulos! Este trabajo muestra que es posible generar automáticamente datos VQA de alta calidad a gran escala, lo que sirve como un componente esencial para VQA y modelos de visión y lenguaje en general (por ejemplo, ALIGN, CoCa). Esperamos que nuestro trabajo inspire otros trabajos sobre VQA centrado en datos.
Gracias
Gracias a Roee Aharoni, Idan Szpektor y Radu Soricut por sus comentarios sobre esta publicación de blog. También agradecemos a nuestros coautores: Xi Chen, Nan Ding, Idan Szpektor y Radu Soricut. Agradecemos a Or Honovich, Hagai Taitelbaum, Roee Aharoni, Sebastian Goodman, Piyush Sharma, Nassim Oufattole, Gal Elidan, Sasha Goldshtein y Avinatan Hassidim por sus contribuciones. Finalmente, agradecemos a los autores de q2cuya tubería influye fuertemente en este trabajo.