[ad_1]
(noticias nanowerk) El Instituto de Ciencia y Tecnología Daegu Gyeongbuk (DGIST) anunció que el equipo de investigación del profesor Sang-hyun Park en el Departamento de Robótica y Mecatrónica ha desarrollado un nuevo modelo de traducción de imágenes que podría reducir eficazmente las distorsiones en los datos. Al desarrollar un modelo de inteligencia artificial (IA) utilizando imágenes recopiladas de diversas fuentes, contrariamente a la intención del usuario, puede producirse distorsión de los datos debido a varios factores.
El modelo desarrollado puede eliminar las distorsiones de los datos a pesar de la falta de información sobre dichos factores, proporcionando así un alto rendimiento en el análisis de imágenes. Esta solución está destinada a permitir la innovación en las áreas de conducción autónoma, creación de contenidos y medicina.
Las tesis centrales
Investigación
Los resultados fueron reportados Redes neuronales (“Traducción de imágenes que preserva el contenido con coexistencia de texturas y autosimilitud espacial para eliminar el sesgo de texturas y adaptación de dominio”).
Los conjuntos de datos utilizados para entrenar modelos de aprendizaje profundo tienden a tener sesgos. Por ejemplo, si está creando un conjunto de datos para distinguir la neumonía bacteriana de la enfermedad por coronavirus 2019 (COVID-19), las condiciones para la captura de imágenes pueden variar debido al riesgo de infección por COVID-19. En consecuencia, estas variaciones dan como resultado diferencias sutiles en las imágenes, lo que hace que los modelos de aprendizaje profundo existentes detecten enfermedades basándose en características resultantes de diferencias en los protocolos de imágenes en lugar de características críticas para la detección práctica de enfermedades.
En este caso, estos modelos tienen un alto rendimiento en base a los datos utilizados para su proceso de entrenamiento. Sin embargo, muestran un rendimiento limitado con datos provenientes de diferentes ubicaciones debido a su incapacidad para generalizar de manera efectiva, lo que puede generar problemas de sobreajuste. En particular, las técnicas de aprendizaje profundo existentes tienden a utilizar diferencias en las texturas como datos cruciales, lo que puede conducir a predicciones inexactas.
Para abordar estos desafíos, el equipo de investigación del profesor Park desarrolló un modelo de traducción de imágenes que podría generar un conjunto de datos utilizando la eliminación del sesgo de textura y realizar el proceso de aprendizaje basado en el conjunto de datos generado. Los modelos de traducción de imágenes existentes a menudo están limitados por el problema de los cambios de textura que resultan en cambios de contenido no intencionales porque las texturas y el contenido están entrelazados. Para abordar este problema, el equipo de investigación del profesor Park desarrolló un nuevo modelo que utiliza funciones de error para texturas y contenido simultáneamente.
El nuevo modelo de traducción de imágenes propuesto por este equipo de investigación funciona extrayendo información sobre el contenido de una imagen de entrada y texturas de otro dominio y combinándolas. Para obtener simultáneamente información no solo sobre el contenido de las imágenes de entrada sino también sobre la textura del nuevo dominio, el modelo desarrollado se entrena utilizando funciones de error de coexistencia de textura y autosimilitud espacial. Estos procesos permiten que el modelo produzca una imagen que tiene la textura de un dominio diferente mientras retiene información sobre el contenido de la imagen de entrada.
Dado que el modelo de aprendizaje profundo desarrollado genera un conjunto de datos utilizando la eliminación de sesgo de textura y utiliza el conjunto de datos generado para el entrenamiento, tiene un mejor rendimiento que los modelos existentes. Logró un rendimiento superior en comparación con las técnicas de traducción de imágenes y eliminación de sesgos existentes cuando se probó en conjuntos de datos con distorsiones de textura, como: B. un conjunto de datos de clasificación para distinguir números, un conjunto de datos de clasificación para distinguir perros y gatos con diferentes colores de pelo y un conjunto de datos de clasificación para aplicar diferentes protocolos de imagen para distinguir entre COVID-19 y neumonía bacteriana. Además, superó a los métodos existentes cuando se aplicó a conjuntos de datos con diferentes sesgos, como un conjunto de datos de clasificación para distinguir números con múltiples etiquetas y un conjunto de datos para distinguir fotografías, imágenes, animaciones y bocetos.
Además, la tecnología de traducción de imágenes propuesta por el equipo de investigación del profesor Park se puede implementar en la manipulación de imágenes. El equipo de investigación descubrió que el método desarrollado solo cambiaba las texturas de una imagen preservando el contenido original. El resultado de este análisis confirmó el rendimiento superior del método desarrollado en comparación con los métodos de procesamiento de imágenes existentes. Además, esta solución también se puede utilizar eficazmente en otros entornos. El equipo de investigación comparó el rendimiento del método desarrollado con el rendimiento de los métodos de traducción de imágenes existentes basados en diferentes áreas, como imágenes médicas y de conducción autónoma. Según los resultados del análisis, el método desarrollado mostró un mejor rendimiento que los métodos existentes.
El profesor Park explicó: «La tecnología desarrollada en esta investigación ofrece una mejora significativa del rendimiento en situaciones en las que inevitablemente se utilizan conjuntos de datos sesgados para entrenar modelos de aprendizaje profundo en los campos industrial y médico». También añadió: «Se espera que esta solución haga una contribución significativa para mejorar la solidez de los modelos de IA que se utilizan comercialmente o se distribuyen en diversos entornos con fines comerciales”.
[ad_2]