[ad_1]
Los médicos a menudo consultan el registro médico electrónico de un paciente en busca de información que les ayude a tomar decisiones de tratamiento, pero la torpeza de estos registros dificulta el proceso. La investigación ha demostrado que incluso cuando un médico ha sido capacitado para usar un registro de salud electrónico (EHR), encontrar una respuesta a una sola pregunta puede llevar más de ocho minutos en promedio.
Cuanto más tiempo tienen los médicos para navegar por una interfaz de EHR a menudo torpe, menos tiempo tienen para interactuar con los pacientes y administrar el tratamiento.
Los investigadores han comenzado a desarrollar modelos de aprendizaje automático que pueden optimizar el proceso al encontrar automáticamente la información que los médicos necesitan en un registro médico electrónico. Sin embargo, entrenar modelos efectivos requiere grandes conjuntos de datos de preguntas médicas relevantes, que a menudo son difíciles de obtener debido a las restricciones de privacidad. Los modelos existentes luchan por generar preguntas auténticas, del tipo que haría un médico humano, y, a menudo, no pueden encontrar con éxito las respuestas correctas.
Para superar esta falta de datos, los investigadores del MIT se han asociado con expertos médicos para examinar las preguntas que hacen los médicos al revisar los registros médicos electrónicos. Luego crearon un conjunto de datos disponible públicamente de más de 2000 preguntas clínicamente relevantes escritas por estos expertos médicos.
Cuando usaron su conjunto de datos para entrenar un modelo de aprendizaje automático para generar preguntas clínicas, descubrieron que el modelo hacía preguntas auténticas y de alta calidad más del 60 por ciento del tiempo en comparación con preguntas reales de expertos médicos.
Usando este conjunto de datos, planean generar una gran cantidad de preguntas médicas auténticas y luego usar esas preguntas para entrenar un modelo de aprendizaje automático que ayudaría a los médicos a encontrar la información que buscan en el registro de un paciente de manera más eficiente.
“Dos mil preguntas pueden parecer muchas, pero cuando observa los modelos de aprendizaje automático que se están entrenando en estos días, tienen muchos datos, tal vez miles de millones de puntos de datos. Cuando entrena modelos de aprendizaje automático para el trabajo de atención médica, debe ser realmente creativo porque hay una gran escasez de datos», dice el autor principal Eric Lehman, estudiante graduado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). .
El autor principal es Peter Szolovits, profesor del Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) que dirige el Grupo de Toma de Decisiones Clínicas en CSAIL y también es miembro del MIT-IBM Watson AI Lab. El trabajo de investigación, una colaboración entre los coautores del MIT, el MIT-IBM Watson AI Lab, IBM Research y los médicos y expertos médicos que ayudaron a crear preguntas y participaron en el estudio, se presentará en la conferencia anual de North presentada por el Capítulo Estadounidense de la Asociación de Lingüística Computacional.
«Los datos realistas son fundamentales para entrenar modelos que son relevantes para la tarea pero difíciles de encontrar o crear», dice Szolovits. «El valor de este trabajo radica en la cuidadosa recopilación de preguntas formuladas por los médicos sobre casos de pacientes, a partir de las cuales podemos desarrollar métodos que utilicen estos datos y modelos generales de lenguaje para formular más preguntas plausibles».
falta de datos
Los pocos grandes conjuntos de datos de preguntas clínicas que los investigadores pudieron encontrar tenían una variedad de problemas, explica Lehman. Algunas consistían en preguntas médicas formuladas por pacientes en foros web, muy lejos de las preguntas médicas. Otros conjuntos de datos contenían preguntas creadas a partir de plantillas, por lo que tienen una estructura prácticamente idéntica, lo que hace que muchas preguntas no sean realistas.
«La recopilación de datos de alta calidad es realmente importante para el aprendizaje automático, especialmente en el contexto de la atención médica, y hemos demostrado que se puede hacer», dice Lehman.
Para construir su conjunto de datos, los investigadores del MIT trabajaron con médicos en ejercicio y estudiantes de medicina en su último año de la facultad de medicina. Les dieron a estos expertos médicos más de 100 resúmenes de alta de EHR y les pidieron que leyeran un resumen y hicieran cualquier pregunta que pudieran tener. Los investigadores no establecieron ninguna restricción sobre los tipos o la estructura de las preguntas para recopilar preguntas naturales. También pidieron a los expertos médicos que identificaran el «texto desencadenante» en el EHR que los impulsó a hacer cada pregunta.
Por ejemplo, un experto médico podría leer una nota en el EHR que indica que el historial médico de cáncer de próstata e hipotiroidismo de un paciente es importante. El texto desencadenante «cáncer de próstata» podría llevar al experto a hacer preguntas como «¿Fecha de diagnóstico?». o «¿Alguna intervención realizada?»
Descubrieron que la mayoría de las preguntas se centraban en los síntomas, los tratamientos o los resultados de las pruebas del paciente. Si bien estos resultados no fueron inesperados, cuantificar la cantidad de preguntas sobre cada tema general ayudará a construir un conjunto de datos efectivo para usar en un entorno clínico real, dice Lehman.
Después de ensamblar su conjunto de datos de preguntas y el texto desencadenante que lo acompaña, lo usaron para entrenar modelos de aprendizaje automático para hacer nuevas preguntas basadas en el texto desencadenante.
Luego, los expertos médicos determinaron si estas preguntas eran «buenas» en función de cuatro métricas: comprensibilidad (¿tiene sentido la pregunta para un médico humano?), trivialidad (¿es la pregunta demasiado fácil de responder según el texto desencadenante?), relevancia médica (¿Tenía sentido hacer esta pregunta en contexto?) y relevancia para el disparador (¿el disparador está relacionado con la pregunta?).
razón para preocuparse
Los investigadores descubrieron que, cuando se les daba un texto desencadenante, un modelo podía hacer una buena pregunta el 63 % de las veces, mientras que un médico humano hacía una buena pregunta el 80 % de las veces.
También entrenaron modelos para encontrar respuestas a preguntas clínicas utilizando los conjuntos de datos públicos que encontraron al comienzo de este proyecto. Luego probaron estos modelos entrenados para ver si podían encontrar respuestas a las preguntas «buenas» de los profesionales médicos.
Los modelos solo pudieron recuperar alrededor del 25 por ciento de las respuestas a las preguntas generadas por los médicos.
“Este resultado es realmente preocupante. Lo que la gente pensaba que eran buenos modelos de trabajo eran simplemente terribles en la práctica porque las preguntas de evaluación que estaban probando no eran buenas para empezar», dice Lehman.
El equipo ahora está aplicando este trabajo a su objetivo original: construir un modelo que pueda responder automáticamente las preguntas de los médicos en un EHR. En el siguiente paso, usarán su conjunto de datos para entrenar un modelo de aprendizaje automático que puede generar automáticamente miles o millones de buenas preguntas clínicas, que luego se pueden usar para entrenar un nuevo modelo para la respuesta automática de preguntas.
Si bien aún queda trabajo por hacer antes de que este modelo pueda convertirse en una realidad, Lehman se siente alentado por los sólidos resultados iniciales que el equipo ha mostrado con este conjunto de datos.
Esta investigación fue apoyada en parte por el MIT-IBM Watson AI Lab. Los coautores adicionales son Leo Anthony Celi del Instituto de Ingeniería y Ciencias Médicas del MIT; Preethi Raghavan y Jennifer J. Liang del MIT-IBM Watson AI Lab; Dana Moukheiber de la Universidad de Buffalo; Vladislav Lialin y Anna Rumshisky de la Universidad de Massachusetts en Lowell; Katelyn Legaspi, Nicole Rose I Alberto, Richard Raymund R Ragasa, Corinna Victoria M Puyat, Isabelle Rose I Alberto y Pia Gabrielle I Alfonso de la Universidad de Filipinas; Anne Janelle R. Sy y Patricia Therese S. Pile de la Universidad de East Ramon Magsaysay Memorial Medical Center; Marianne Taliño de la Facultad de Medicina y Salud Pública de la Universidad Ateneo de Manila; y Byron C. Wallace de la Universidad del Noreste.
[ad_2]