Los métodos de explicación que ayudan a los usuarios a comprender y confiar en los modelos de aprendizaje automático a menudo describen en qué medida ciertas características utilizadas en el modelo contribuyen a su predicción. Por ejemplo, si un modelo predice el riesgo de un paciente de desarrollar una enfermedad cardíaca, es posible que un médico quiera saber cuánto afectan los datos de la frecuencia cardíaca del paciente a esa predicción.
Pero si estas funciones son tan complejas o enrevesadas que el usuario no puede entenderlas, ¿tiene algún uso el método de explicación?
Los investigadores del MIT se esfuerzan por mejorar la interpretabilidad de las funciones para que los responsables de la toma de decisiones puedan aprovechar mejor los resultados de los modelos de aprendizaje automático. Basándose en años de trabajo de campo, han desarrollado una taxonomía para ayudar a los desarrolladores a crear funciones que sean más fáciles de entender para su público objetivo.
«Descubrimos que en el mundo real, aunque usamos métodos de última generación para explicar los modelos de aprendizaje automático, todavía hay mucha confusión debido a las características y no al modelo en sí», dice Alexandra Zytek, una Estudiante de doctorado en ingeniería eléctrica y ciencias de la computación Autor principal de un artículo que presenta la taxonomía.
Para construir la taxonomía, los investigadores definieron propiedades que hacen que los rasgos sean interpretables por cinco tipos de usuarios, desde expertos en inteligencia artificial hasta personas afectadas por la predicción de un modelo de aprendizaje automático. También brindan orientación sobre cómo los modeladores pueden transformar funciones en formatos que sean más fáciles de entender para un laico.
Esperan que su trabajo inspire a los modeladores a usar funciones interpretables al principio del proceso de desarrollo, en lugar de intentar trabajar hacia atrás y centrarse en la explicación después del hecho.
Los coautores del MIT son Dongyu Liu, un postdoctorado; la profesora visitante Laure Berti-Équille, directora de investigación del IRD; y el autor principal Kalyan Veeramachaneni, científico investigador principal en el Laboratorio de Sistemas de Información y Decisión (LIDS) y líder del grupo Data to AI. A ellos se une Ignacio Arnaldo, científico de datos sénior de Corelight. Los resultados de la investigación se publican en la edición de junio del Grupo de interés especial sobre descubrimiento de conocimientos y minería de datos de la Association for Computing Machinery, que es revisado por pares. Boletín de Exploración.
Lecciones del mundo real
Las características son variables de entrada que se alimentan a los modelos de aprendizaje automático; Por lo general, se extraen de las columnas de un conjunto de datos. Los científicos de datos normalmente seleccionan y elaboran a mano características para el modelo, y su enfoque principal es asegurarse de que las características se desarrollen para mejorar la precisión del modelo, no si un tomador de decisiones puede entenderlas, explica Veeramachaneni.
Durante varios años, él y su equipo han estado trabajando con los responsables de la toma de decisiones para identificar los desafíos de usabilidad en el aprendizaje automático. Estos expertos en dominios, la mayoría de los cuales no están familiarizados con el aprendizaje automático, a menudo no confían en los modelos porque no comprenden las características que impulsan las predicciones.
Para un proyecto, trabajaron con médicos en la unidad de cuidados intensivos de un hospital que utilizaron el aprendizaje automático para predecir el riesgo de un paciente de desarrollar complicaciones después de una cirugía cardíaca. Algunas características se presentaron como valores agregados, como B. la tendencia de la frecuencia cardíaca de un paciente a lo largo del tiempo. Si bien las características codificadas de esta manera estaban «listas para el modelo» (el modelo podía manejar los datos), los médicos no entendían cómo se calculaban. Prefieren ver cómo estas características agregadas se relacionan con los valores originales para poder identificar anomalías en la frecuencia cardíaca de un paciente, dice Liu.
Por el contrario, un grupo de científicos del aprendizaje prefirió características agregadas. En lugar de tener una característica como «número de publicaciones que un estudiante hizo en los foros de discusión», preferirían agrupar características relacionadas y etiquetarlas con términos que entiendan, como «participación».
«Cuando se trata de interpretabilidad, una talla no sirve para todos. A medida que avanza de un área a otra, hay diferentes necesidades. Y la interpretabilidad en sí tiene muchos niveles”, dice Veeramachaneni.
La idea de que una talla no sirve para todos es clave para la taxonomía de los investigadores. Definen propiedades que pueden hacer que las características sean más o menos interpretables por diferentes tomadores de decisiones y describen qué propiedades probablemente sean más importantes para usuarios específicos.
Por ejemplo, los desarrolladores de aprendizaje automático pueden centrarse en tener características que sean compatibles con el modelo y predictivas, lo que significa que se espera que mejoren el rendimiento del modelo.
Por otro lado, los tomadores de decisiones sin experiencia en aprendizaje automático podrían estar mejor atendidos con características formuladas por humanos, es decir, se describen de una manera natural y comprensible para los usuarios, es decir, se relacionan con usuarios de métricas reales que pueden juzgar sobre a ellos.
“La taxonomía dice que si creas rasgos interpretables, ¿hasta qué punto son interpretables? Dependiendo del tipo de expertos de dominio con los que trabaje, es posible que no necesite todos los niveles”, dice Zytek.
interpretabilidad en primer lugar
Los investigadores también describen técnicas de ingeniería de funciones que un desarrollador puede aplicar para hacer que las funciones sean más interpretables para una audiencia determinada.
La ingeniería de características es un proceso en el que los científicos de datos transforman los datos en un formato que los modelos de aprendizaje automático pueden procesar, utilizando técnicas como la agregación de datos o la normalización de valores. Además, la mayoría de los modelos no pueden manejar datos categóricos a menos que se conviertan a un código numérico. Estas transformaciones a menudo son casi imposibles de desempacar para los laicos.
Para crear funciones interpretables, podría ser necesario deshacer parte de esa codificación, dice Zytek. Por ejemplo, una técnica común de ingeniería de características organiza los intervalos de datos para que todos contengan la misma cantidad de años. Para que estas características sean más fáciles de interpretar, se podrían agrupar grupos de edad utilizando términos humanos como bebé, niño pequeño, niño y adolescente. O en lugar de usar una función transformada como la frecuencia cardíaca promedio, una función interpretable podría ser simplemente datos de frecuencia cardíaca reales, agrega Liu.
“En muchas áreas, el compromiso entre las características interpretables y la precisión del modelo es realmente muy pequeño. Por ejemplo, cuando trabajamos con evaluadores de protección infantil, volvimos a entrenar el modelo utilizando solo funciones que cumplían con nuestras definiciones de interpretabilidad, y la penalización del rendimiento fue casi insignificante”, dice Zytek.
Sobre la base de este trabajo, los investigadores están desarrollando un sistema que permite a un desarrollador de modelos manejar transformaciones de características complicadas de manera más eficiente para crear explicaciones centradas en el ser humano para modelos de aprendizaje automático. Este nuevo sistema también transformará los algoritmos para explicar los conjuntos de datos listos para el modelo en formatos que los tomadores de decisiones puedan entender.