Después de todo, un método para interpretar la IA puede no ser tan interpretable

[ad_1]

A medida que los sistemas autónomos y la inteligencia artificial se vuelven más comunes en la vida cotidiana, surgen nuevos métodos que permiten a las personas verificar que estos sistemas se comportan como se esperaba. Un método, llamado especificaciones formales, utiliza fórmulas matemáticas que pueden traducirse a expresiones de lenguaje natural. Algunos investigadores afirman que este método se puede utilizar para formular decisiones que tomará una IA de una manera que pueda ser interpretada por los humanos.

Los investigadores del Laboratorio Lincoln del MIT querían probar la interpretabilidad de tales afirmaciones. Sus resultados sugieren lo contrario: las especificaciones formales parecen no ser interpretables por los humanos. En el estudio del equipo, se pidió a los participantes que consideraran si el plan de un agente de IA tendría éxito en un juego virtual. Cuando a los participantes se les presentó la especificación formal del plan, acertaron menos de la mitad de las veces.

“Los resultados son malas noticias para los investigadores que afirman que los métodos formales añaden interpretabilidad a los sistemas. Esto puede ser cierto en un sentido limitado y abstracto, pero no en nada parecido a la validación práctica de un sistema”, dice Hosea Siu, investigador del Grupo de Tecnología de IA del laboratorio. El artículo del grupo fue aceptado en la Conferencia Internacional sobre Robots y Sistemas Inteligentes de 2023, celebrada a principios de este mes.

La interpretabilidad es importante porque permite a las personas confiar en una máquina en el mundo real. Si un robot o una IA pueden explicar sus acciones, los humanos pueden decidir si necesitan ajustes o si se puede confiar en que tomarán decisiones justas. Un sistema interpretable también permite a los usuarios de la tecnología (no sólo a los desarrolladores) comprender y confiar en sus capacidades. Sin embargo, la interpretabilidad en el ámbito de la IA y la autonomía ha sido un desafío durante mucho tiempo. El proceso de aprendizaje automático tiene lugar en una “caja negra”, por lo que los desarrolladores de modelos a menudo no pueden explicar por qué o cómo un sistema llegó a una decisión particular.

«Cuando los investigadores dicen: ‘Nuestro sistema de aprendizaje automático es preciso’, preguntamos: ‘¿Qué tan preciso es?’ y “¿con qué datos?” y si no se facilita esta información rechazaremos la reclamación. «No hemos hecho mucho cuando los investigadores dicen: ‘Nuestro sistema de aprendizaje automático es interpretable’, y tenemos que empezar a someter estas afirmaciones a un mayor escrutinio», afirma Siu.

Perdido en la traducción

Para su experimento, los investigadores querían descubrir si las especificaciones formales facilitan la interpretación del comportamiento de un sistema. Se centraron en la capacidad de las personas para utilizar dichas especificaciones para validar un sistema, es decir, para comprender si el sistema siempre cumple con los objetivos del usuario.

La aplicación de especificaciones formales para este fin es esencialmente un subproducto de su uso original. Las especificaciones formales son parte de un conjunto más amplio de métodos formales que utilizan expresiones lógicas como marco matemático para describir el comportamiento de un modelo. Debido a que el modelo se basa en un flujo lógico, los ingenieros pueden utilizar «verificadores de modelos» para probar matemáticamente hechos sobre el sistema, incluso si el sistema puede o no realizar una tarea. Ahora los investigadores están intentando utilizar el mismo marco como herramienta de traducción para humanos.

“Los investigadores confunden el hecho de que las especificaciones formales tengan una semántica precisa con el hecho de que sean interpretables por humanos. No es lo mismo”, dice Siu. «Descubrimos que casi nadie comprobaba si la gente realmente entendía los resultados».

En el experimento del equipo, se pidió a los participantes que validaran un conjunto bastante simple de comportamientos con un robot jugando a «capturar la bandera», respondiendo esencialmente a la pregunta: «Si el robot sigue exactamente estas reglas, gana». «

Los participantes incluyeron tanto expertos como no expertos en métodos formales. Recibieron las especificaciones formales de tres maneras: una fórmula lógica “en bruto”, la fórmula traducida a palabras más cercanas al lenguaje natural y un formato de árbol de decisiones. Los árboles de decisión, en particular, a menudo se ven en el mundo de la IA como una forma interpretable por humanos de representar la toma de decisiones de la IA o los robots.

Los resultados: «El rendimiento de la validación fue bastante terrible en general, con alrededor del 45 por ciento de precisión independientemente del tipo de presentación», dice Siu.

Ciertamente mal

Aquellos previamente capacitados en especificaciones formales obtuvieron solo un desempeño ligeramente mejor que los novatos. Sin embargo, los expertos informaron de una confianza mucho mayor en sus respuestas, independientemente de si eran correctas o no. En general, la gente tendía a confiar demasiado en la exactitud de las especificaciones que se les presentaban, lo que significaba que ignoraban los conjuntos de reglas que permitían pérdidas en el juego. Este sesgo de confirmación es particularmente preocupante para la validación del sistema, dicen los investigadores, porque las personas son más propensas a pasar por alto los modos de falla.

“No creemos que este resultado signifique que debamos abandonar las especificaciones formales para explicar el comportamiento del sistema a las personas. Pero creemos que hay mucho más trabajo por hacer en el diseño de la forma en que se presentan a las personas y el flujo de trabajo en el que las personas los utilizan”, añade Siu.

Al considerar por qué los resultados fueron tan pobres, Siu se da cuenta de que incluso las personas que trabajan con métodos formales no están lo suficientemente capacitadas para verificar las especificaciones como lo requería el experimento. Y es difícil pensar en todos los resultados posibles de un conjunto de reglas. Aún así, los conjuntos de reglas mostrados a los participantes eran breves, correspondiendo a no más de un párrafo de texto, «mucho más cortos que cualquier cosa que encontrarías en cualquier sistema real», dice Siu.

El equipo no intenta vincular directamente sus resultados con el desempeño de los humanos en la validación de robots reales. En lugar de ello, quieren utilizar los resultados como punto de partida para considerar qué podría estar pasando por alto a la comunidad lógica formal cuando afirma que es interpretable y cómo esas afirmaciones podrían desarrollarse en el mundo real.

Esta investigación se realizó como parte de un proyecto más amplio en el que Siu y sus compañeros de equipo están trabajando para mejorar la relación entre robots y operadores humanos, particularmente aquellos en el ejército. El proceso de programación de robots a menudo puede dejar a los operadores fuera del circuito. Con el objetivo similar de mejorar la interpretabilidad y la confianza, el proyecto busca permitir que los operadores enseñen directamente a los robots tareas, de manera similar a como entrenan a los humanos. Un proceso de este tipo podría mejorar tanto la confianza del operador en el robot como su adaptabilidad.

En última instancia, esperan que los resultados de este estudio y su investigación en curso puedan mejorar la aplicación de la autonomía a medida que se integra más en la vida humana y la toma de decisiones.

«Nuestros resultados resaltan la necesidad de que los humanos evalúen ciertos sistemas y conceptos de autonomía e inteligencia artificial antes de hacer demasiadas afirmaciones sobre sus beneficios para los humanos», añade Siu.

[ad_2]

Subscribe to Updates

What's Hot

Después de todo, un método para interpretar la IA puede no ser tan interpretable | Noticias del MIT

Related Posts