(Noticias de Nanowerk) Hace aproximadamente una década, los modelos de aprendizaje profundo comenzaron a lograr resultados sobrehumanos en todo, desde vencer a jugadores campeones del mundo en juegos de mesa hasta superar a los médicos en el diagnóstico del cáncer de mama.
Estos poderosos modelos de aprendizaje profundo generalmente se basan en redes neuronales artificiales, que se propusieron por primera vez en la década de 1940 y se han convertido en un tipo popular de aprendizaje automático. Una computadora aprende a procesar datos usando capas de nodos interconectados, o neuronas, que imitan el cerebro humano.
A medida que ha crecido el campo del aprendizaje automático, también lo han hecho las redes neuronales artificiales.

Los modelos de aprendizaje profundo actuales a menudo consisten en millones o miles de millones de nodos interconectados en muchas capas que están capacitados para realizar tareas de detección o clasificación utilizando grandes cantidades de datos. Pero debido a que los modelos son tan enormemente complejos, incluso los investigadores que los diseñan no entienden completamente cómo funcionan. Esto hace que sea difícil saber si están funcionando correctamente.
Por ejemplo, un modelo diseñado para ayudar a los médicos a diagnosticar a los pacientes podría haber predicho correctamente que una lesión cutánea es cancerosa, pero se ha centrado en un marcador no relacionado que resulta ser común cuando se ve tejido canceroso en una fotografía, y no en el tejido canceroso. Esto se conoce como correlación espuria. El modelo acierta en la predicción, pero lo hace por la razón equivocada. En un entorno clínico real, donde el marcador no aparece en las imágenes positivas para el cáncer, esto podría conducir a un diagnóstico erróneo.
Con tanta incertidumbre girando en torno a estos llamados modelos de «caja negra», ¿cómo se puede saber qué está pasando dentro de la caja?
Este enigma ha dado lugar a un área de investigación nueva y de rápido crecimiento en la que los investigadores están desarrollando y probando métodos explicativos (también llamados métodos de interpretabilidad) que intentan arrojar algo de luz sobre cómo los modelos de aprendizaje automático de caja negra hacen predicciones.
¿Qué son los métodos de explicación?
En su nivel más básico, los métodos de explicación son globales o locales. Un método de explicación local se enfoca en explicar cómo el modelo hizo una predicción específica, mientras que las explicaciones globales intentan describir el comportamiento general de un modelo completo. Esto se hace a menudo mediante el desarrollo de un modelo separado, más simple (y con suerte comprensible) que imita el modelo de caja negra más grande.
Sin embargo, debido a que los modelos de aprendizaje profundo funcionan de manera fundamentalmente compleja y no lineal, desarrollar un modelo explicativo global efectivo es particularmente desafiante. Esto ha llevado a los investigadores a centrarse mucho últimamente en los métodos de explicación local, explica Yilun Zhou, estudiante de posgrado en el Grupo de Robótica Interactiva del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), que estudia modelos, algoritmos y evaluaciones en una máquina interpretable. Aprender.
Los tipos más populares de métodos de explicación local se dividen en tres amplias categorías.
El primer y más común tipo de método de explicación es la atribución de características. Los métodos de atribución de características muestran qué características fueron las más importantes cuando el modelo tomó una decisión particular.
Las características son las variables de entrada que se alimentan a un modelo de aprendizaje automático y se utilizan en su predicción. Si los datos son tabulares, las características se extraen de las columnas en un conjunto de datos (se transforman utilizando una variedad de técnicas para permitir que el modelo procese los datos sin procesar). Para las tareas de procesamiento de imágenes, por otro lado, cada píxel de una imagen es una característica. Por ejemplo, si un modelo predijera que una imagen de rayos X mostraría cáncer, el método de mapeo de características resaltaría los píxeles en esa imagen de rayos X específica que eran más importantes para la predicción del modelo.
Esencialmente, los métodos de atribución de características muestran lo que más le importa al modelo cuando hace una predicción.
“Use esta explicación de mapeo de características para verificar si la correlación falsa es una preocupación. Por ejemplo, muestra si los píxeles están resaltados en una marca de agua o si los píxeles están resaltados en un tumor real», dice Zhou.
Un segundo tipo de método de explicación se conoce como explicación contrafáctica. Dada una entrada y una predicción del modelo, estos métodos muestran cómo se puede cambiar esa entrada para que caiga en una clase diferente. Por ejemplo, si un modelo de aprendizaje automático predice que a un prestatario se le negará un préstamo, la explicación contrafactual muestra qué factores deben cambiarse para que se acepte su solicitud de préstamo. Quizás su calificación crediticia o sus ingresos, ambas características utilizadas en la predicción del modelo, deben ser más altas para que se apruebe.
«Lo bueno de este método de explicación es que te dice exactamente cómo cambiar la entrada para revertir la decisión, lo que podría tener algún uso práctico. Para alguien que solicitó una hipoteca y no la obtuvo, esta explicación le diría qué debe hacer para obtener el resultado deseado», dice.
La tercera categoría de métodos de explicación se conoce como explicación de la importancia del ejemplo. A diferencia de los demás, este método requiere acceso a los datos utilizados para entrenar el modelo.
Una explicación de la importancia del ejemplo muestra en qué ejemplo de entrenamiento se basó más un modelo al hacer una predicción particular; Idealmente, este es el ejemplo más cercano a los datos de entrada. Este tipo de explicación es particularmente útil cuando se observa una predicción aparentemente irracional. Es posible que se haya producido un error de entrada de datos que afectó a una muestra específica utilizada para entrenar el modelo. Sabiendo esto, se podría reparar esta muestra y volver a entrenar el modelo para mejorar su precisión.
¿Cómo se utilizan los métodos explicativos?
Una motivación para desarrollar estas explicaciones es realizar el control de calidad y depurar el modelo. Con una mejor comprensión de cómo las características afectan la decisión de un modelo, uno podría, por ejemplo, reconocer que un modelo no está funcionando correctamente e intervenir para solucionar el problema, o tirar el modelo y comenzar de nuevo.
Otra área de investigación más reciente está explorando el uso de modelos de aprendizaje automático para descubrir patrones científicos que los humanos no han descubierto antes. Por ejemplo, un modelo de diagnóstico de cáncer que supera a los médicos podría tener fallas o detectar algunos patrones ocultos en una radiografía que representan una vía patológica temprana para el cáncer que los médicos humanos desconocían o consideraban irrelevante, dice Zhou.
Sin embargo, este campo de investigación aún está en pañales.
palabras de advertencia
Si bien los métodos explicativos a veces pueden ser útiles para los profesionales del aprendizaje automático cuando intentan encontrar errores en sus modelos o comprender el funcionamiento interno de un sistema, los usuarios finales deben tener cuidado al intentar usarlos en la práctica, dice Marzyeh Ghassemi, profesor asistente y líder. del Grupo ML Saludable en CSAIL.
A medida que el aprendizaje automático se ha adoptado en más y más disciplinas, desde la atención médica hasta la educación, los métodos explicativos se utilizan para ayudar a los tomadores de decisiones a comprender mejor las predicciones de un modelo, para que sepan cuándo confiar en el modelo y aplicar su guía en la práctica. Pero Ghassemi advierte contra el uso de estos métodos de esta manera.
“Descubrimos que las explicaciones llevan a las personas, tanto a los expertos como a los legos, a confiar demasiado en la capacidad o el asesoramiento de un sistema de recomendación en particular. Creo que es muy importante que la gente no apague esos circuitos internos y diga: ‘Déjame cuestionar los consejos que me están dando'», dice.
Los científicos saben que las explicaciones basadas en otros trabajos recientes hacen que las personas se vuelvan arrogantes, agrega, citando algunos estudios recientes (Estudio 1; Estudio 2) realizados por investigadores de Microsoft.
Lejos de ser una bala de plata, los métodos explicativos tienen su parte de problemas. Por un lado, la investigación reciente de Ghassemi ha demostrado que los métodos explicativos pueden perpetuar el sesgo y conducir a peores resultados para las personas de los grupos desfavorecidos.
Otro escollo de los métodos explicativos es que a menudo es imposible saber si el método explicativo es correcto en absoluto. Habría que comparar las explicaciones con el modelo real, pero dado que el usuario no sabe cómo funciona el modelo, es una lógica circular, dice Zhou.
Él y otros investigadores están trabajando para mejorar los métodos de explicación para que coincidan más con las predicciones del modelo real, pero Zhou advierte que incluso la mejor explicación debe tratarse con precaución.
“Además, las personas generalmente perciben estos modelos como tomadores de decisiones similares a los humanos, y tendemos a generalizar en exceso. Necesitamos tranquilizar y contener a las personas para asegurarnos realmente de que la comprensión del modelo común que están construyendo a partir de estas explicaciones locales sea equilibrada”, agrega.
La investigación reciente de Zhou intenta hacer precisamente eso.
¿Qué sigue para los métodos de explicación de aprendizaje automático?
En lugar de centrarse en brindar explicaciones, Ghassemi argumenta que se debe poner más esfuerzo en la comunidad de investigación para estudiar cómo se presenta la información a los tomadores de decisiones para que puedan entenderla, y que se deben implementar más regulaciones para garantizar que Los modelos adecuados para el aprendizaje automático se utilizan de manera responsable en la práctica. Mejores métodos de explicación por sí solos no son la respuesta.
“Me emocionó ver que hay mucho más reconocimiento, incluso dentro de la industria, de que no podemos simplemente tomar esa información y crear un buen tablero y asumir que las personas se desempeñarán mejor con él. Necesitan mejoras medibles en acción, y espero que esto conduzca a pautas reales para mejorar la forma en que mostramos la información en estos campos altamente técnicos como la medicina”, dice.
Y además del nuevo trabajo centrado en mejorar las explicaciones, Zhou espera más investigación relacionada con los métodos de explicación para casos de uso específicos, como B. Depuración de modelos, descubrimiento científico, auditoría de imparcialidad y garantía de seguridad. Al identificar las características detalladas de los métodos explicativos y los requisitos de los diferentes casos de uso, los investigadores podrían generar una teoría que relacione las explicaciones con escenarios específicos, lo que podría ayudar a superar algunas de las dificultades que surgen del uso en escenarios del mundo real.