[ad_1]
De bebés, balbuceamos e imitamos nuestra forma de aprender idiomas. No comenzamos leyendo texto sin procesar, lo que requiere un conocimiento y una comprensión básicos del mundo, así como una capacidad avanzada para interpretar y deducir de descripciones y relaciones. Más bien, los humanos comienzan lentamente nuestro viaje lingüístico señalando e interactuando con nuestro entorno, fundamentando nuestras palabras y percibiendo su significado a través del contexto del mundo físico y social. Finalmente, podemos formar oraciones completas para comunicar ideas complejas.
A medida que las personas comienzan a aprender y traducir a otro idioma, la inclusión de otra información sensorial, como multimedia, junto con palabras nuevas y desconocidas, como tarjetas con imágenes, mejora la adquisición y retención del idioma. Luego, con suficiente práctica, las personas pueden traducir con precisión oraciones nuevas e invisibles en contexto sin los medios que las acompañan; Sin embargo, ayuda crear una imagen basada en el texto original.
Esta es la base de un nuevo modelo de aprendizaje automático llamado VALHALLA por investigadores del MIT, IBM y la Universidad de California en San Diego, en el que una red neuronal entrenada ve una oración fuente en un idioma y ve una imagen de ella con aspecto de alucinación, y luego usa ambos para crear y traducir a un idioma de destino. El equipo descubrió que su método ha mejorado la precisión de la traducción automática en comparación con la traducción de texto sin formato. Además, brindó un impulso adicional para casos con oraciones largas, idiomas con recursos insuficientes y casos en los que parte de la oración fuente no es accesible para el traductor automático.
Como tarea central en el campo de la inteligencia artificial del procesamiento del lenguaje natural (PNL), la traducción automática es una «tecnología extremadamente práctica utilizada por millones de personas todos los días», dice el coautor del estudio Yoon Kim, profesor asistente en el Departamento de MIT. Ingeniería Eléctrica y Ciencias de la Computación con afiliaciones al Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y al MIT-IBM Watson AI Lab. Con los recientes avances significativos en el aprendizaje profundo, «ha habido un desarrollo interesante en la forma en que se puede usar información no textual, por ejemplo, imágenes, audio u otra información básica, para realizar tareas prácticas relacionadas con el lenguaje», dice Kim, porque «cuando los humanos realizan tareas de procesamiento del lenguaje, lo hacemos en un mundo situado y conectado a tierra». El emparejamiento de imágenes alucinadas y texto durante la inferencia, postuló el equipo, imita este proceso y proporciona un contexto para mejorar el rendimiento sobre el estado actual de la situación. técnicas de última generación, que utilizan únicamente datos de texto.
Esta investigación se presentará en la conferencia IEEE/CVF Computer Vision and Pattern Recognition de este mes. Los coautores de Kim son el estudiante graduado de UC San Diego Yi Li y el profesor Nuno Vasconcelos, junto con los investigadores asociados Rameswar Panda, Chun-fu «Richard» Chen, Rogerio Feris y el director de IBM, David Cox, de IBM Research y MIT-IBM Watson AI Lab. .
Aprendiendo a alucinar a partir de imágenes
Cuando aprendemos y traducimos nuevos idiomas, a menudo se nos proporcionan ejemplos y ejercicios antes de emprender por nuestra cuenta. Lo mismo se aplica a los sistemas de traducción automática; Sin embargo, cuando se usan imágenes durante el entrenamiento, estos métodos de IA también requieren ayudas visuales para la prueba, lo que limita su aplicabilidad, dice Panda.
“En escenarios del mundo real, es posible que no tengas una imagen relacionada con la oración inicial. Entonces, nuestra motivación fue esencialmente: en lugar de usar una imagen externa como entrada durante la inferencia, ¿podemos usar la alucinación visual, la capacidad de imaginar escenas visuales, para mejorar los sistemas de traducción automática?” dice Panda.
Para hacer esto, el equipo utilizó una arquitectura de codificador-decodificador de dos transformadores, un tipo de modelo de red neuronal adecuado para datos dependientes de la secuencia, como el habla, que puede prestar atención a las palabras clave y la semántica de una oración. Un Transformer crea una alucinación visual y el otro realiza una traducción multimodal utilizando los resultados del primer Transformer.
Durante el entrenamiento, hay dos flujos de traducción: una oración fuente y una imagen de verdad básica emparejada con ella, y la misma oración fuente alucinada visualmente para formar un par texto-imagen. Primero, la imagen de verdad fundamental y la proposición se convierten en representaciones que pueden ser manejadas por transformadores; en el caso de la oración, cada palabra es una ficha. La oración original vuelve a tokenizarse, pero esta vez pasa por el transformador de alucinaciones visuales, que emite una alucinación, una representación pictórica discreta de la oración. Los investigadores integraron una autorregresión que compara la base de la verdad y las representaciones alucinadas para el acuerdo, por ejemplo, homónimos: una referencia a un animal «murciélago» no se alucina como un bate de béisbol. Luego, el transformador de alucinaciones usa la diferencia entre ellos para modificar sus predicciones y la salida visual para garantizar que el contexto sea consistente.
Luego, los dos conjuntos de fichas se pasan simultáneamente a través del transformador de traducción multimodal, cada uno de los cuales contiene la representación de la oración y la imagen de la verdad alucinada o fundamental. Los resultados de traducción de texto tokenizados se comparan con el objetivo de que sean similares entre sí y la oración de destino en otro idioma. Luego, cualquier diferencia se retroalimenta al transformador de traducción para una mayor optimización.
Para las pruebas, el flujo de imágenes de la realidad del terreno cae, ya que es probable que las imágenes no estén disponibles en los escenarios cotidianos.
«Hasta donde sabemos, no hemos visto ningún trabajo que realmente use un transformador de alucinaciones junto con un sistema de traducción multimodal para mejorar el rendimiento de la traducción automática», dice Panda.
Visualización del texto de destino
Para probar su método, el equipo comparó VALHALLA con otros métodos de traducción multimodales y de solo texto de última generación. Utilizaron conjuntos de datos de referencia públicos que contenían imágenes de la verdad con oraciones fuente, así como un conjunto de datos que traducía artículos de noticias de solo texto. Los investigadores midieron su desempeño en 13 tareas que van desde traducir a idiomas con buenos recursos (como inglés, alemán y francés) a idiomas con pocos recursos (como inglés a rumano) a idiomas distintos del inglés (como español a francés). El grupo también probó diferentes tamaños de modelos de transformadores, cómo cambia la precisión con la longitud de la oración y la traducción en un contexto de texto limitado donde partes del texto estaban ocultas para los traductores automáticos.
El equipo observó mejoras significativas en los métodos de traducción de solo texto, mejoró la eficiencia de los datos y que los modelos más pequeños funcionaron mejor que el modelo base más grande. A medida que las oraciones se hacían más largas, el rendimiento de VALHALLA sobre otros métodos creció, lo que los investigadores atribuyeron a la adición de palabras ambiguas. En los casos en que parte de la oración estaba enmascarada, VALHALLA pudo recuperar y traducir el texto original, lo que sorprendió al equipo.
Hubo otras ideas inesperadas: “Donde no se hizo tanto entrenamiento [image and] pares de texto, [like for under-resourced languages]las mejoras fueron más significativas, lo que sugiere que la conexión a tierra en imágenes es útil en sistemas con pocos datos», dice Kim. «Otra cosa que me sorprendió bastante fue este rendimiento mejorado, incluso con tipos de texto que no son necesariamente ligeros. Por ejemplo , tal vez no sea tan sorprendente si esto ayuda a traducir frases visualmente llamativas como «hay un auto rojo frente a la casa». [However]también solo como texto [news article] dominios, el enfoque pudo mejorar los sistemas de solo texto”.
Si bien VALHALLA funciona bien, los investigadores señalan que tiene limitaciones, ya que los pares de oraciones deben anotarse con una imagen, lo que podría hacer que su obtención sea más costosa. También funciona mejor en su sección básica y no en las noticias de solo texto. Además, Kim y Panda notan que una técnica como VALHALLA sigue siendo una caja negra con la suposición de que las imágenes alucinadas brindan información útil, y el equipo planea estudiar qué y cómo aprende el modelo para validar sus métodos.
En el futuro, el equipo planea explorar otras formas de mejorar la traducción. “Aquí solo nos enfocamos en imágenes, pero también hay otros tipos de información multimodal, por ejemplo, voz, video o tacto u otras modalidades sensoriales”, dice Panda. «Creemos que una base multimodal de este tipo puede conducir a modelos de traducción automática aún más eficientes, lo que podría beneficiar la traducción a muchos de los idiomas con pocos recursos del mundo».
Esta investigación fue apoyada en parte por el MIT-IBM Watson AI Lab y la National Science Foundation.
[ad_2]