[ad_1]
Cuando los modelos de aprendizaje automático se utilizan en situaciones del mundo real, como mostrar enfermedades potenciales en imágenes de rayos X para que las revise un radiólogo, los usuarios humanos necesitan saber cuándo confiar en las predicciones del modelo.
Pero los modelos de aprendizaje automático son tan grandes y complejos que ni siquiera los científicos que los diseñan entienden exactamente cómo hacen predicciones los modelos. Por ello, desarrollan técnicas conocidas como métodos de prominencia, cuyo objetivo es explicar el comportamiento del modelo.
Con la publicación constante de nuevos métodos, investigadores del MIT e IBM Research han desarrollado una herramienta para ayudar a los usuarios a seleccionar el mejor método de prominencia para su tarea específica. Desarrollaron excelentes mapas que proporcionan documentación estandarizada sobre cómo funciona un método, incluidas sus fortalezas y debilidades, y explicaciones para ayudar a los usuarios a interpretarlo correctamente.
Esperan que con esta información, los usuarios puedan encontrar un método de configuración apropiado tanto para el tipo de modelo de aprendizaje automático que están utilizando como para la tarea que realiza el modelo, explica la coautora principal Angie Boggust, estudiante de doctorado en ingeniería eléctrica e informática. en el MIT y miembro del grupo de visualización del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL).
Las entrevistas con investigadores de IA y expertos de otros campos revelaron que las tarjetas ayudan a las personas a hacer rápidamente una comparación lado a lado de diferentes métodos y seleccionar una técnica que sea adecuada para la tarea. Elegir el método correcto brinda a los usuarios una imagen más precisa de cómo se está desempeñando su modelo, por lo que pueden interpretar correctamente sus predicciones.
“Los mapas de expresión tienen como objetivo brindar una descripción general rápida y clara de un método de expresión y también desglosarlo en los atributos más importantes orientados al ser humano. Realmente atienden a todos, desde investigadores de aprendizaje automático hasta personas comunes que intentan comprender qué método usar y decidir cuál usar por primera vez”, dice Boggust.
Junto a Boggust, el coautor principal Harini Suresh, un postdoctorado del MIT, participa en el trabajo; Hendrik Strobelt, científico investigador senior de IBM Research; John Guttag, profesor Dugald C. Jackson de Ciencias de la Computación e Ingeniería Eléctrica en el MIT; y el autor principal Arvind Satyanarayan, profesor asociado de informática en el MIT, que dirige el grupo de visualización en CSAIL. Los resultados de la investigación se presentarán en la Conferencia ACM sobre Equidad, Responsabilidad y Transparencia.
Elige el método correcto
Los investigadores han evaluado previamente métodos de prominencia utilizando el concepto de fidelidad. En este contexto, la fidelidad captura qué tan estrechamente un método refleja el proceso de toma de decisiones de un modelo.
Pero la lealtad no existe en blanco y negro, explica Boggust. Un método puede funcionar bien en una prueba de confiabilidad pero fallar en otra. Con tantos métodos destacados y tantas evaluaciones posibles, los usuarios a menudo eligen un método porque es popular o porque un colega lo ha utilizado.
Sin embargo, elegir el método “incorrecto” puede tener graves consecuencias. Por ejemplo, una técnica destacada llamada gradientes integrados compara la importancia de las características de una imagen con una línea de base sin sentido. Las características con mayor importancia en relación con la línea de base son las más significativas para predecir el modelo. Este método normalmente utiliza todos ceros como base. Sin embargo, cuando se aplica a imágenes, todos los ceros corresponden al color negro.
«Te dirá que todos los píxeles negros de tu imagen no son importantes, incluso si lo son, porque son idénticos a esa línea base sin sentido. Esto podría ser un gran problema si se miran radiografías porque el negro podría significar algo para los médicos», dice Boggust.
Los mapas de prominencia pueden ayudar a los usuarios a evitar este tipo de problemas al resumir cómo funciona un método de prominencia utilizando 10 atributos orientados al usuario. Los atributos capturan la forma en que se calcula la proliferación, la relación entre el método de proliferación y el modelo, y cómo el usuario percibe su resultado.
Por ejemplo, un atributo es la dependencia de hiperparámetros, que mide qué tan sensible es este método de expresión a los parámetros proporcionados por el usuario. Una excelente tarjeta de gradiente integrada describiría sus parámetros y cómo afectan el rendimiento. Al utilizar el mapa, un usuario podría ver rápidamente que los parámetros predeterminados (una línea de base totalmente cero) podrían generar resultados engañosos al evaluar las radiografías.
Los mapas también podrían resultar útiles para los científicos al revelar lagunas en el espacio de investigación. Por ejemplo, los investigadores del MIT no pudieron identificar un método de prominencia que fuera computacionalmente eficiente pero que también pudiera aplicarse a cualquier modelo de aprendizaje automático.
“¿Podemos cerrar esta brecha? ¿Existe algún método de prominencia que pueda hacer ambas cosas? O tal vez estas dos ideas están teóricamente en desacuerdo”, dice Boggust.
mostrar sus cartas
Después de crear varios mapas, el equipo llevó a cabo un estudio de usuarios con ocho expertos en la materia, desde informáticos hasta radiólogos no familiarizados con el aprendizaje automático. Durante las entrevistas, todos los participantes indicaron que las descripciones concisas les ayudaron a priorizar atributos y comparar métodos. Y a pesar de no estar familiarizado con el aprendizaje automático, el radiólogo pudo comprender los mapas y utilizarlos para participar en la elección de un método de prominencia, afirma Boggust.
Las entrevistas también revelaron algunas sorpresas. Los investigadores suelen esperar que los médicos quieran un método que sea nítido, es decir, que se centre en un objeto específico en una imagen médica. Sin embargo, el médico de este estudio en realidad prefirió algo de ruido en las imágenes médicas para mitigar la incertidumbre.
«Cuando lo dividimos en estos diferentes atributos y entrevistamos a las personas, resultó que ni una sola persona tenía las mismas prioridades que todos los demás en el estudio, incluso si desempeñaban el mismo rol», dice.
En el futuro, a los investigadores les gustaría examinar algunos de los rasgos más infravalorados y posiblemente desarrollar métodos de expresión específicos para cada tarea. También quieren comprender mejor cómo las personas perciben los resultados del método de prominencia, lo que podría conducir a mejores visualizaciones. Además, alojan su trabajo en un repositorio público para que otros puedan proporcionar comentarios que impulsen el trabajo futuro, afirma Boggust.
“Estamos realmente seguros de que estos son documentos vivos que crecerán a medida que se desarrollen nuevos métodos y análisis de la importancia de los conocimientos. En última instancia, esto es solo el comienzo de una discusión más amplia sobre cuáles son las características de un método de prominencia y cómo desempeñan un papel en diferentes tareas”, afirma.
La investigación fue apoyada en parte por el Laboratorio de IA Watson del MIT-IBM, el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU.
[ad_2]