Casi mil millones de radiografías de tórax (CXR) se toman en todo el mundo cada año para ayudar a detectar y tratar condiciones de salud que van desde pulmones colapsados hasta enfermedades infecciosas. En general, las CXR son más baratas y más accesibles que otras formas de imágenes médicas. Sin embargo, los desafíos existentes continúan obstaculizando el uso óptimo de los CXR. Por ejemplo, en algunas áreas, los radiólogos capacitados que pueden interpretar con precisión las imágenes de CXR son escasos. Además, la variabilidad en la interpretación entre expertos, las diferencias en el flujo de trabajo entre instituciones y la presencia de enfermedades raras conocidas solo por subespecialistas contribuyen a que la interpretación de CXR de alta calidad sea un desafío.
Investigaciones recientes han utilizado el aprendizaje automático (ML) para explorar posibles soluciones a algunos de estos desafíos. Existe un gran interés y esfuerzo para desarrollar modelos de aprendizaje profundo que detecten anomalías en las radiografías torácicas y mejoren el acceso, la precisión y la eficiencia para identificar enfermedades y afecciones que afectan el corazón y los pulmones. Sin embargo, la creación de modelos CXR robustos requiere grandes conjuntos de datos de entrenamiento etiquetados que pueden ser prohibitivamente costosos y lentos de crear. En algunos casos, p. cuando se trabaja con poblaciones subrepresentadas o se estudian enfermedades raras, solo se dispone de datos limitados. Además, la calidad de las imágenes de CXR varía según la población, la región y la institución, lo que dificulta la creación de modelos sólidos que funcionen bien en todo el mundo.
En Aprendizaje de transferencia simplificado para modelos de radiografía de tórax usando menos datos, publicado en la revista radiologíadescribimos cómo Google Health usa métodos avanzados de aprendizaje automático para generar «redes CXR» previamente entrenadas que pueden convertir imágenes CXR en incrustaciones (es decir, vectores numéricos ricos en información) para permitir el desarrollo de modelos CXR con menos datos y menos recursos computacionales para permitir . Mostramos que incluso con menos datos y esfuerzo computacional, este enfoque ha permitido un rendimiento comparable a los modelos de aprendizaje profundo de última generación en diferentes tareas de predicción. También nos complace anunciar el lanzamiento de Fundación CXR, una herramienta que aprovecha nuestra red específica de CXR para permitir a los desarrolladores crear incrustaciones personalizadas para sus imágenes de CXR. Creemos que este trabajo ayudará a acelerar el desarrollo de modelos CXR, ayudará en la detección de enfermedades y contribuirá a un acceso más equitativo a la atención médica en todo el mundo.
Desarrollo de una red de rayos X torácicos
Un enfoque común para crear modelos de ML médicos es entrenar previamente un modelo con conjuntos de datos no médicos para una tarea genérica y luego refinar el modelo para una tarea médica de destino. Este proceso de transferencia de aprendizaje puede mejorar el desempeño de la tarea objetivo o, al menos, acelerar la convergencia al aplicar la comprensión de las imágenes naturales a las imágenes médicas. Sin embargo, el aprendizaje de transferencia aún puede requerir grandes conjuntos de datos médicos etiquetados para el paso de refinamiento.
Sobre la base de este enfoque estándar, nuestro sistema admite el modelado de tareas específicas de CXR a través de una configuración de entrenamiento de modelo de tres niveles que consta de (1) entrenamiento previo de imagen genérica similar al aprendizaje de transferencia tradicional, (2) entrenamiento previo específico de CXR, y (3) capacitación específica para tareas. El primer y tercer paso son comunes en ML: primero entrenamiento previo en un gran conjunto de datos y etiquetas no específicas para la tarea deseada, y luego ajuste fino en la tarea de interés.
Hemos desarrollado un clasificador de imágenes específico para CXR utilizando aprendizaje contrastivo supervisado (SupCon). SupCon reúne representaciones de imágenes que tienen la misma etiqueta (p. ej., anormal) y separa representaciones de imágenes que tienen una etiqueta diferente (p. ej., una imagen normal y una imagen anormal). Entrenamos previamente este modelo en conjuntos de datos de CXR no identificados con más de 800 000 imágenes creadas en colaboración con Northwestern Medicine y Apollo Hospitals en los EE. UU. y la India, respectivamente. Luego usamos etiquetas de anomalías ruidosas del procesamiento del lenguaje natural de los informes de radiología para construir nuestra red «específica de CXR».
Esta red crea incrustaciones (es decir, vectores numéricos ricos en información que se pueden usar para distinguir clases entre sí) que pueden entrenar más fácilmente modelos para tareas específicas de predicción médica, como búsqueda de imágenes (por ejemplo, opacidad del espacio aéreo), condición clínica (por ejemplo, , tuberculosis), o el resultado del paciente (p. ej., hospitalización). Por ejemplo, la red CXR puede generar incrustaciones para cada imagen en un conjunto de datos CXR específico. Para estas imágenes, las incrustaciones generadas y las etiquetas para la tarea de destino deseada (p. ej., tuberculosis) se utilizan como ejemplos para entrenar un modelo de aprendizaje automático pequeño.
![]() |
Izquierda: entrenar un modelo CXR para una tarea específica generalmente requiere una gran cantidad de imágenes etiquetadas y una cantidad significativa de recursos computacionales para proporcionar una base para las capas de la red neuronal. Derecha: Con la red y la herramienta CXR que proporcionan esta base, cada nueva tarea requiere solo una fracción de las imágenes anotadas, los recursos computacionales y los parámetros de la red neuronal en comparación con la creación de toda la red desde cero. |
Efectos del pre-entrenamiento CXR
Hemos visualizado estas capas incrustadas en cada paso del proceso utilizando la opacidad del espacio aéreo como ejemplo (ver imagen a continuación). Antes del entrenamiento previo basado en SupCon, había poca separación entre las incrustaciones de CXR normales y anormales. Después del entrenamiento previo basado en SupCon, los ejemplos positivos se agruparon más juntos y los ejemplos negativos también se agruparon más juntos, lo que indica que el modelo había encontrado que las imágenes de cada categoría se parecían a sí mismas.
![]() |
Visualizaciones de incrustaciones de vecinos estocásticos distribuidos en t para incrustaciones de red genéricas frente a específicas de CXR. Las incrustaciones son vectores numéricos ricos en información que por sí solos pueden distinguir clases entre sí, en este caso, la opacidad del espacio aéreo es positiva o negativa. |
Nuestra investigación sugiere que agregar el segundo nivel de preentrenamiento hace posible entrenar modelos de alta calidad con hasta 600 veces menos datos en comparación con los enfoques de aprendizaje de transferencia tradicionales que usan modelos preentrenados en conjuntos de datos genéricos no médicos. Descubrimos que esto es cierto independientemente de la arquitectura del modelo (p. ej., ResNet o EfficientNet) o el conjunto de datos utilizado para el preentrenamiento de imágenes naturales (p. ej., ImageNet o JFT-300M). Con este enfoque, los investigadores y desarrolladores pueden reducir significativamente los requisitos de tamaño del conjunto de datos.
![]() |
arriba: En un modelo de aprendizaje profundo, la red neuronal contiene múltiples capas de neuronas artificiales, la primera capa toma la imagen CXR como entrada, las capas intermedias realizan cálculos adicionales y la última capa realiza la clasificación (por ejemplo, opacidad del espacio aéreo: presente vs. ausente ). La capa de lecho suele ser una de las últimas capas. Abajo a la izquierda: El enfoque de aprendizaje de transferencia tradicional implica una configuración de entrenamiento en dos etapas en la que una red genérica preentrenada se optimiza directamente para una tarea de predicción de interés. Nuestra configuración de entrenamiento de tres pasos propuesta genera una red CXR usando una técnica SupCon ML (paso 2) antes de optimizarla para tareas de predicción interesantes (paso 3). Abajo a la derecha: El uso de incrustaciones implica entrenar modelos más pequeños (las dos primeras estrategias) o ajustar toda la red cuando hay suficientes datos (estrategia 3). |
Resultados
Después de entrenar el modelo inicial, medimos el rendimiento utilizando la métrica del área bajo la curva (AUC), aplicando modelos lineales y no lineales a las incrustaciones de CXR; y un modelo no lineal generado mediante el ajuste fino de toda la red. Para conjuntos de datos públicos como ChestX-ray14 y CheXpert, nuestro trabajo ha mejorado de manera significativa y constante la compensación de precisión de datos para modelos desarrollados para una variedad de tamaños de conjuntos de entrenamiento y múltiples resultados. Por ejemplo, al evaluar la capacidad de la herramienta para desarrollar modelos de tuberculosis, las mejoras en la eficiencia de los datos fueron más evidentes: los modelos entrenados con la incorporación de solo 45 imágenes no fueron inferiores a los radiólogos en la detección de tuberculosis en un conjunto de datos de validación externa. Tanto para la tuberculosis como para los resultados graves de COVID-19, mostramos que los clasificadores no lineales entrenados en incrustaciones congeladas superaron a un modelo ajustado a todo el conjunto de datos.
![]() |
Comparación de redes específicas de CXR para el aprendizaje por transferencia (rojo), con un enfoque de aprendizaje de transferencia de referencia (azul) a través de una variedad de anomalías CXR (arriba a la izquierda), tuberculosis (abajo a la izquierda) y resultados de COVID-19 (abajo a la derecha). Este enfoque mejora el rendimiento para el mismo tamaño de conjunto de datos o reduce el tamaño del conjunto de datos necesario para lograr el mismo rendimiento. Curiosamente, usar la red CXR con modelos ML más simples que son más rápidos de entrenar (rojo) funciona mejor que entrenar toda la red (Negro) para tamaños de conjuntos de datos de hasta 85 Fotos. |
Conclusión y trabajo futuro
Para acelerar los esfuerzos de modelado de CXR con pocos datos y requisitos computacionales, estamos lanzando nuestra herramienta CXR Foundation junto con scripts para entrenar clasificadores lineales y no lineales. A través de estas incrustaciones, esta herramienta permitirá a los investigadores impulsar los esfuerzos de modelado de CXR con métodos de aprendizaje de transferencia más fáciles. Este enfoque puede ser particularmente útil para el modelado predictivo con pequeños conjuntos de datos y para ajustar modelos CXR cuando hay cambios en la distribución de las poblaciones de pacientes (ya sea a lo largo del tiempo o entre instituciones). Estamos entusiasmados de continuar trabajando con socios como Northwestern Medicine y Apollo Hospitals para explorar más a fondo el impacto de esta tecnología. Al permitir que los investigadores con datos y poder de cómputo limitados desarrollen modelos CXR, esperamos que más desarrolladores puedan resolver los problemas más impactantes para sus poblaciones.
Gracias
Los principales contribuyentes a este proyecto en Google incluyen a Christina Chen, Yun Liu, Dilip Krishnan, Zaid Nabulsi, Atilla Kiraly, Arnav Agharwal, Eric Wu, Yuanzhen Li, Aaron Maschinot, Aaron Sarna, Jenny Huang, Marilyn Zhang, Charles Lau, Neeral Beladia, Daniel Tse, Krish Eswaran y Shravya Shetty. También se realizaron aportes y aportes significativos de los colaboradores Sreenivasa Raju Kalidindi, Mozziyar Etemadi, Florencia Garcia-Vicente y David Melnick. Para el conjunto de datos ChestX-ray14, agradecemos al Centro Clínico NIH por ponerlo a disposición del público. Los autores también desean agradecer a muchos miembros de los equipos de software de etiquetado y radiología de Google Health. Agradecimientos sinceros también a los radiólogos que hicieron posible este trabajo a través de sus esfuerzos en la interpretación de imágenes y comentarios a lo largo del estudio; Jonny Wong por coordinar el trabajo de anotación de imágenes; Craig Mermel y Akinori Mitani por sus comentarios sobre el manuscrito; Nicole Linton y Lauren Winer por sus comentarios sobre la publicación del blog; y Tom Small para la animación.