[ad_1]
Antes de que Marzyeh Ghassemi recibiera su doctorado en informática en el MIT en 2017, ya empezaba a preguntarse si el uso de técnicas de IA podría reforzar los prejuicios ya existentes en la atención sanitaria. Fue una de las primeras investigadoras en investigar este tema y ha estado involucrada en él desde entonces. En un nuevo artículo, Ghassemi, ahora profesor asistente en el Departamento de Ciencia e Ingeniería Eléctrica (EECS) del MIT, y tres colaboradores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial han examinado las causas de las diferencias que pueden surgir en el aprendizaje automático. Esto a menudo hace que los modelos que funcionan bien en general fallen cuando se trata de subgrupos para los cuales se han recopilado y utilizado relativamente pocos datos en el proceso de capacitación. El artículo, escrito por dos estudiantes graduados del MIT, Yuzhe Yang y Haoran Zhang, la científica informática del EECS Dina Katabi (profesora de Thuan y Nicole Pham) y Ghassemi, se presentó el mes pasado en la 40ª Conferencia Internacional sobre Aprendizaje Automático en Honolulu. , Hawái, presentado.
En su análisis, los investigadores se centraron en los «cambios de subpoblación»: diferencias en el rendimiento de los modelos de aprendizaje automático para un subgrupo en comparación con otro. “Queremos que los modelos sean justos y funcionen igual de bien para todos los grupos. En cambio, observamos constantemente cambios entre diferentes grupos que pueden conducir a diagnósticos y tratamientos médicos más deficientes», dice Yang, quien junto con Zhang son los dos autores principales del artículo. El objetivo principal de su investigación es determinar los tipos de cambios de subpoblación que pueden ocurrir y descubrir los mecanismos detrás de ellos, de modo que, en última instancia, se puedan desarrollar modelos más equitativos.
El nuevo artículo «mejora enormemente nuestra comprensión» del fenómeno del cambio de subpoblación, afirma Sanmi Koyejo, informático de la Universidad de Stanford. «Esta investigación proporciona información valiosa para futuros avances en el rendimiento de modelos de aprendizaje automático en subgrupos subrepresentados».
camellos y ganado
El grupo del MIT ha identificado cuatro tipos principales de cambios (correlaciones espurias, desajuste de atributos, desajuste de clases y generalización de atributos) que, según Yang, «nunca se han agrupado en un marco coherente y unificado». Se nos ocurrió una única ecuación que muestra de dónde pueden surgir los prejuicios”.
En realidad, el sesgo puede provenir de lo que los investigadores llaman la clase, el atributo o ambos. Para dar un ejemplo sencillo, supongamos que la tarea del modelo de aprendizaje automático es clasificar imágenes de objetos (en este caso animales) en dos clases: vacas y camellos. Los atributos son descriptores que no son específicos de la clase en sí. Por ejemplo, podría resultar que todas las imágenes utilizadas en el análisis muestren vacas sobre hierba y camellos sobre arena; la hierba y la arena sirven como atributos aquí. Teniendo en cuenta los datos de que dispone, la máquina podría llegar a una conclusión errónea: que las vacas sólo se encuentran en la hierba y no en la arena, mientras que en el caso de los camellos ocurre lo contrario. Sin embargo, tal hallazgo sería erróneo y conduciría a una correlación incorrecta, lo que Yang explica que es un «caso especial» entre los cambios de subpoblación: «un caso en el que existe un sesgo en términos tanto de clase como de atributo».
En el campo de la medicina, se podría confiar en los modelos de aprendizaje automático para determinar si una persona tiene neumonía o no mediante el examen de imágenes de rayos X. En esta situación habría dos clases, una formada por personas que padecen enfermedades pulmonares y otra por aquellas que están libres de infección. Un caso relativamente simple involucraría sólo dos características: los sujetos a ser radiografiados son hombres o mujeres. En este conjunto de datos en particular, si hubiera 100 hombres diagnosticados con neumonía por cada mujer diagnosticada con neumonía, esto podría resultar en un desequilibrio de atributos y el modelo probablemente sería más capaz de identificar correctamente la neumonía en un hombre que en una mujer. Del mismo modo, si hubiera 1.000 veces más sujetos sanos (libres de neumonía) que enfermos, con el modelo sesgado hacia los casos sanos, habría un desequilibrio de clases. La generalización de atributos es el último cambio destacado en el nuevo estudio. Si su muestra incluye 100 pacientes masculinos con neumonía y ninguna mujer con la misma enfermedad, desea que el modelo aún pueda generalizar y hacer predicciones sobre mujeres incluso si los datos de entrenamiento no incluyen muestras de neumonía femenina.
Luego, el equipo probó 20 algoritmos avanzados diseñados para realizar tareas de clasificación en una docena de conjuntos de datos para ver cómo funcionan en diferentes poblaciones. Llegaron a algunas conclusiones inesperadas: al mejorar el «clasificador», la última capa de la red neuronal, pudieron reducir la aparición de correlaciones erróneas y desequilibrios de clases, pero los otros cambios no se vieron afectados. Las mejoras en el codificador, una de las capas superiores de la red neuronal, podrían reducir el problema del desequilibrio de atributos. «Pero no importa lo que le hiciéramos al codificador o clasificador, no vimos ninguna mejora en términos de generalización de atributos», dice Yang, «y no sabemos cómo hacerlo todavía».
Precisamente
También plantea la cuestión de qué tan bien funciona realmente su modelo en términos de uniformidad entre diferentes poblaciones. La métrica que normalmente se utiliza, llamada Precisión del peor grupo (WGA), se basa en la suposición de que si se pudiera mejorar la precisión (por ejemplo, del diagnóstico médico) para el grupo con peor desempeño de un conjunto, se habría mejorado la precisión del peor grupo. modelo. «El WGA se considera el estándar de oro para evaluar subpoblaciones», afirman los autores, pero hicieron un descubrimiento sorprendente: aumentar la precisión del grupo del peor de los casos da como resultado una disminución en lo que ellos llaman «precisión del peor de los casos». En las decisiones médicas de todo tipo se requiere tanto exactitud, que habla de la validez de los resultados, como precisión, que se relaciona con la fiabilidad de la metodología. «La precisión y la exactitud son métricas muy importantes en las tareas de clasificación, y esto es especialmente cierto en el diagnóstico médico», explica Yang. “Nunca se debe cambiar la precisión por la exactitud. Siempre hay que conciliar ambos”.
Los científicos del MIT ponen en práctica sus teorías. En un estudio que están realizando con un centro médico, están examinando conjuntos de datos públicos de decenas de miles de pacientes y cientos de miles de radiografías de tórax, tratando de descubrir si es posible que los modelos de aprendizaje automático funcionen de forma imparcial. camino para todas las poblaciones. Eso está lejos de ser el caso, aunque se ha creado más conciencia sobre el tema, dice Yang. «Encontramos muchas diferencias entre diferentes grupos de edad, géneros, etnias y grupos interseccionales».
Él y sus colegas coinciden en el objetivo final, que es lograr una atención sanitaria equitativa para todas las poblaciones. Pero antes de que podamos llegar a ese punto, todavía necesitamos desarrollar una mejor comprensión de las causas de la injusticia y cómo impregna nuestro sistema actual. Admiten que reformar todo el sistema no será fácil. De hecho, el título del artículo que presentaron en la conferencia de Honolulu, «El cambio es difícil», da algunas pistas sobre los desafíos que ellos y otros investigadores afines enfrentan.
Esta investigación está financiada por el MIT-IBM Watson AI Lab.
[ad_2]