[ad_1]
El clásico dicho de la informática «basura entra, basura sale» carece de matices cuando se trata de comprender datos médicos sesgados, sostienen profesores de informática y bioética del MIT, la Universidad Johns Hopkins y el Instituto Alan Turing en un nuevo artículo de opinión publicado recientemente. en un tema de Revista de Medicina de Nueva Inglaterra (NEJM). La creciente popularidad de la inteligencia artificial ha llevado a un mayor escrutinio sobre la cuestión de los modelos de IA sesgados que conducen a la discriminación algorítmica. La Oficina de Ciencia y Tecnología de la Casa Blanca ha identificado esto como un tema clave en su actual borrador de Declaración de Derechos de IA.
Cuando nos enfrentamos a datos sesgados, particularmente en los modelos de IA utilizados en el campo médico, la respuesta típica es recopilar más datos de grupos subrepresentados o generar datos sintéticos para compensar las piezas faltantes y garantizar que el modelo funcione en una variedad de poblaciones de pacientes. funciona igual de bien. Sin embargo, los autores sostienen que este enfoque técnico debería complementarse con una perspectiva sociotécnica que tenga en cuenta factores sociales tanto históricos como actuales. De esta manera, los investigadores pueden combatir más eficazmente los prejuicios en la salud pública.
«Los tres habíamos hablado de cómo, desde la perspectiva del aprendizaje automático, a menudo tratamos los problemas con los datos como molestias que deben abordarse con una solución técnica», recuerda el coautor Marzyeh Ghassemi, profesor asistente de ingeniería eléctrica e informática. Science y afiliado de la Clínica Abdul Latif Jameel para el Aprendizaje Automático en Salud (Clínica Jameel), el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) y el Instituto de Ingeniería y Ciencias Médicas (IMES). “Habíamos utilizado analogías de datos como un artefacto que proporcionaba una visión parcial de prácticas pasadas, o como un espejo roto que contenía un reflejo. En ambos casos, la información puede no ser del todo precisa o favorable: podemos pensar que nos comportamos de cierta manera como sociedad, pero cuando realmente nos fijamos en los datos, cuentan una historia diferente. Puede que no nos guste esta historia, pero una vez que se comprende el pasado, se puede avanzar y tomar medidas para abordar las malas prácticas”.
Los datos como artefacto
En el artículo titulado “Considering Biased Data as Informative Artifacts in AI-Assisted Health Care”, Ghassemi, Kadija Ferryman y Maxine Mackintosh abogan por ver los datos clínicos sesgados como “artefactos”, tal como los antropólogos o arqueólogos verían los objetos físicos: Partes de Prácticas de civilización, sistemas de creencias y valores culturales, en el caso del artículo, particularmente aquellos que han llevado a las desigualdades existentes en el sistema de salud.
Por ejemplo, un estudio de 2019 mostró que un algoritmo ampliamente considerado un estándar de la industria utilizaba el gasto en atención médica como un indicador de necesidad, lo que llevó a la conclusión falsa de que los pacientes negros más enfermos requieren el mismo nivel de atención que los pacientes blancos más sanos. Lo que encontraron los investigadores fue que la discriminación algorítmica no tenía en cuenta el acceso desigual a la atención sanitaria.
En este caso, en lugar de ver los conjuntos de datos sesgados o la escasez de datos como problemas que simplemente deben eliminarse o remediarse, Ghassemi y sus colegas recomiendan el enfoque del «artefacto» como una forma de crear conciencia sobre los elementos sociales e históricos que dan forma a la naturaleza y cómo Se recopilan datos y las alternativas influyen en los enfoques para el desarrollo clínico de la IA.
«Si el objetivo de su modelo es utilizarlo en un entorno clínico, debe consultar a un bioético o a un médico con la formación adecuada en las primeras etapas de la formulación del problema», afirma Ghassemi. “Como científicos informáticos, a menudo no tenemos una imagen completa de los diversos factores sociales e históricos que han influido en la creación de los datos que utilizamos. Necesitamos experiencia para reconocer cuándo los modelos generalizados a partir de datos existentes pueden no funcionar bien para subgrupos particulares”.
Cuando más datos pueden realmente afectar el rendimiento
Los autores reconocen que uno de los aspectos más difíciles de implementar un enfoque basado en artefactos es poder evaluar si los datos han sido corregidos racialmente, es decir, utilizando cuerpos masculinos blancos como criterio convencional con el que se miden otros cuerpos. El artículo de opinión cita un ejemplo de la Chronic Kidney Disease Collaboration de 2021, que desarrolló una nueva ecuación para medir la función renal porque la antigua ecuación se «corrigió» previamente bajo el supuesto general de que las personas de raza negra tienen mayor masa muscular. Ghassemi dice que los investigadores deberían estar preparados para examinar las correcciones basadas en la raza como parte del proceso de investigación.
En otro artículo reciente aceptado en la Conferencia Internacional sobre Aprendizaje Automático de este año, del que son coautores el estudiante graduado de Ghassemi, Vinith Suriyakumar, y el profesor asistente Berk Ustun de la Universidad de California en San Diego, los investigadores encontraron que el compromiso se vuelve más personalizado. La raza mejora el rendimiento de los modelos de ML en realidad puede conducir a peores evaluaciones, modelos y métricas de riesgo para las minorías y las poblaciones minoritarias.
“No existe una solución única para determinar si la raza autoinformada debe incluirse o no en una puntuación de riesgo clínico. La raza autoinformada es una construcción social que es a la vez un sustituto de otra información y está profundamente arraigada en otros datos médicos. La solución debe ajustarse a la evidencia”, explica Ghassemi.
como sigue
Esto no quiere decir que los conjuntos de datos sesgados deban arraigarse o que los algoritmos sesgados no requieran corrección: los datos de entrenamiento de alta calidad siguen siendo clave para desarrollar modelos clínicos de IA seguros y de alto rendimiento. NEJM El artículo destaca el papel de los Institutos Nacionales de Salud (NIH) en la promoción de prácticas éticas.
«Generar conjuntos de datos de alta calidad y de origen ético es fundamental para permitir el uso de tecnologías de inteligencia artificial de próxima generación que transformen la forma en que hacemos investigación», dijo el director ejecutivo de los NIH, Lawrence Tabak, en un comunicado de prensa, cuando los NIH anunciaron su programa Bridge2AI de 130 millones de dólares. el año pasado. Ghassemi está de acuerdo y señala que los NIH han «priorizado la recopilación de datos de una manera ética que cubre información cuyo valor para la salud humana no hemos destacado previamente, como los factores ambientales y los determinantes sociales». resultados de salud significativos”.
Elaine Nsoesie, profesora asociada de la Universidad de Salud Pública de Boston, cree que tratar conjuntos de datos sesgados como artefactos en lugar de basura tiene muchos beneficios potenciales, empezando por centrarse en el contexto. «El sesgo en un conjunto de datos recopilados para pacientes con cáncer de pulmón en un hospital de Uganda podría ser diferente del de un conjunto de datos recopilados en Estados Unidos para la misma población de pacientes», explica. «Al tener en cuenta el contexto local, podemos entrenar algoritmos para servir mejor a poblaciones específicas». Nsoesie dice que comprender los factores históricos y contemporáneos que dan forma a un conjunto de datos puede facilitar la identificación de prácticas discriminatorias presentes en algoritmos o sistemas que pueden codificarse en una manera que no es inmediatamente obvia. También señala que un enfoque basado en artefactos podría conducir al desarrollo de nuevas políticas y estructuras que garanticen que se aborden las causas fundamentales del sesgo en un conjunto de datos determinado.
“La gente suele decirme que le tiene mucho miedo a la IA, especialmente en el sector sanitario. Dirán: «Tengo mucho miedo de que una IA haga un diagnóstico erróneo» o «Tengo miedo de que me trate mal», dice Ghassemi. “Les digo: no deberían tener miedo de una hipotética IA en la atención sanitaria del mañana, deberían tener miedo de lo que es la atención sanitaria ahora. Si echamos un vistazo técnico limitado a los datos que extraemos de los sistemas, podríamos reproducir ingenuamente malas prácticas. Ésta no es la única opción: reconocer que hay un problema es nuestro primer paso hacia una mayor oportunidad”.
[ad_2]