[ad_1]
Explicar el comportamiento de las redes neuronales entrenadas sigue siendo un enigma intrigante, especialmente a medida que estos modelos se vuelven más grandes y sofisticados. Al igual que otros desafíos científicos a lo largo de la historia, la ingeniería inversa sobre cómo funcionan los sistemas de inteligencia artificial requiere una cantidad significativa de experimentación: generar hipótesis, manipular el comportamiento e incluso diseccionar grandes redes para estudiar neuronas individuales. Hasta la fecha, la mayoría de los experimentos exitosos se han basado en gran medida en la supervisión humana. Es casi seguro que explicar cada cálculo en modelos de tamaño GPT-4 y mayores requerirá más automatización, tal vez incluso el uso de los propios modelos de IA.
Para hacer posible este oportuno esfuerzo, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT han desarrollado un enfoque novedoso que utiliza modelos de IA para realizar experimentos en otros sistemas y explicar su comportamiento. Su método utiliza agentes creados a partir de modelos de lenguaje previamente entrenados para crear explicaciones intuitivas para los cálculos dentro de redes entrenadas.
En el centro de esta estrategia se encuentra el “Agente de Interpretabilidad Automatizado” (AIA), cuyo objetivo es imitar los procesos experimentales de un científico. Los agentes de interpretabilidad planifican y realizan pruebas en otros sistemas informáticos, que varían en tamaño desde neuronas individuales hasta modelos completos, para proporcionar explicaciones de esos sistemas en diversas formas: descripciones lingüísticas de lo que hace un sistema y dónde falla, y el código que realiza ese comportamiento del sistema. reproducido. A diferencia de los métodos de interpretabilidad existentes que clasifican o resumen pasivamente ejemplos, el AIA participa activamente en la generación de hipótesis, pruebas experimentales y aprendizaje iterativo, refinando así su comprensión de otros sistemas en tiempo real.
El método AIA se complementa con el nuevo punto de referencia de interpretación y descripción de funciones (FIND), un entorno de prueba para funciones que se asemejan a cálculos en redes entrenadas y las descripciones que lo acompañan de su comportamiento. Un desafío clave al evaluar la calidad de las descripciones de los componentes reales de la red es que las descripciones son tan buenas como su poder explicativo: los investigadores no tienen acceso a hechos establecidos. Nombres de unidades o descripciones de cálculos aprendidos. FIND aborda este problema de larga data en el campo proporcionando un estándar confiable para evaluar métodos de interpretabilidad: las explicaciones de funciones (por ejemplo, creadas por una AIA) se pueden evaluar con respecto a las descripciones de funciones en el punto de referencia.
Por ejemplo, FIND contiene neuronas sintéticas diseñadas para imitar el comportamiento de neuronas reales en modelos de lenguaje, algunas de las cuales son selectivas para conceptos únicos como «transporte terrestre». Los AIA tienen acceso a neuronas sintéticas y diseñan entradas (como “árbol”, “suerte” y “automóvil”) para probar la respuesta de una neurona. Después de determinar que una neurona sintética produce valores de respuesta más altos para el «automóvil» que para otras entradas, una AIA podría desarrollar pruebas más detalladas para distinguir la selectividad de la neurona por los automóviles de otros modos de transporte como aviones y barcos. Cuando la AIA crea una descripción como «Esta neurona es selectiva para el transporte por carretera y no para viajes aéreos o marítimos», esa descripción se evalúa con respecto a la descripción real de la neurona sintética («selectiva para el transporte terrestre») en FIND. Luego, el punto de referencia se puede utilizar para comparar las capacidades de los AIA con otros métodos de la literatura.
Sarah Schwettmann PhD ’21, coautora principal de un artículo sobre el nuevo trabajo e investigadora científica en CSAIL, enfatiza los beneficios de este enfoque. “La capacidad de los AIA para generar y probar hipótesis de forma autónoma puede revelar comportamientos que de otro modo serían difíciles de detectar para los científicos. «Es notable que los modelos lingüísticos, cuando están equipados con herramientas para estudiar otros sistemas, sean capaces de realizar este tipo de diseño experimental», dice Schwettmann. «Los puntos de referencia claros y simples con respuestas bien fundadas han sido un impulsor clave de capacidades más generales en los modelos de lenguaje, y esperamos que FIND pueda desempeñar un papel similar en la investigación de la interpretabilidad».
Automatización de la interpretabilidad
Los principales modelos de voz continúan manteniendo su estatus como celebridades solicitadas en el mundo de la tecnología. Los avances recientes en los LLM han puesto de relieve su capacidad para realizar tareas de razonamiento complejas en diversas áreas. El equipo de CSAIL reconoció que, dadas estas capacidades, los modelos de lenguaje podrían servir como columna vertebral de agentes generalizados para la interpretabilidad automatizada. «Históricamente, la interpretabilidad ha sido un campo muy complejo», afirma Schwettmann. “No existe un enfoque único que sirva para todos; La mayoría de los procedimientos son muy específicos de las preguntas individuales que podamos tener sobre un sistema y de modalidades individuales como la visión o el lenguaje. Los enfoques existentes para etiquetar neuronas individuales en modelos de visión han requerido entrenar modelos específicos con datos humanos, y estos modelos solo realizan esta tarea. Los agentes de interpretabilidad creados a partir de modelos de lenguaje podrían proporcionar una interfaz general para explicar otros sistemas: sintetizar resultados a través de experimentos, integrar diferentes modalidades e incluso descubrir nuevas técnicas experimentales en un nivel muy fundamental”.
A medida que entramos en un sistema en el que los propios modelos explicativos son cajas negras, las evaluaciones externas de los métodos de interpretabilidad se vuelven cada vez más importantes. El nuevo punto de referencia del equipo aborda esta necesidad con un conjunto de características con estructura conocida que imitan comportamientos observados en la naturaleza. Las funciones de FIND abarcan una amplia gama de áreas, desde el razonamiento matemático hasta operaciones simbólicas en cadenas y neuronas sintéticas creadas a partir de tareas a nivel de palabras. El conjunto de datos de características interactivas se crea de forma procesal; Al agregar ruido, componer funciones y simular distorsión, la complejidad del mundo real se introduce en funciones simples. Esto permite la comparación de métodos de interpretabilidad en un entorno que se traduce en desempeño en el mundo real.
Además del conjunto de datos funcionales, los investigadores introdujeron un protocolo de evaluación innovador para evaluar la eficacia de los AIA y los métodos de interpretabilidad automatizados existentes. Este protocolo incluye dos enfoques. Para las tareas que requieren replicación de la función en código, la evaluación compara las estimaciones generadas por IA directamente con las funciones reales originales. Para tareas que implican describir funciones en lenguaje natural, la evaluación se vuelve más compleja. En estos casos, evaluar con precisión la calidad de estas descripciones requiere una comprensión automatizada de su contenido semántico. Para abordar este desafío, los investigadores desarrollaron un modelo de lenguaje especial de «terceros». Este modelo está específicamente entrenado para evaluar la precisión y coherencia de las descripciones en lenguaje natural proporcionadas por los sistemas de inteligencia artificial y compararlas con el comportamiento de la función de verdad fundamental.
FIND permite la evaluación y muestra que todavía estamos muy lejos de automatizar completamente la interpretabilidad; Aunque los AIA superan los enfoques de interpretabilidad existentes, todavía no pueden describir con precisión casi la mitad de las características del punto de referencia. Tamar Rott Shaham, coautora principal del estudio e investigadora postdoctoral en CSAIL, señala: «Aunque esta generación de AIA describe eficazmente la funcionalidad de alto nivel, a menudo todavía omiten detalles más finos, particularmente en subdominios funcionales con ruido o comportamiento irregular». . Probablemente esto se deba a un muestreo inadecuado en estas áreas. Un problema es que la eficacia de las AIA podría verse comprometida por sus datos exploratorios iniciales. Para abordar esto, intentamos guiar la exploración de AIA iniciando su búsqueda con entradas específicas y relevantes, lo que aumentó significativamente la precisión de la interpretación». Este enfoque combina nuevos métodos de AIA con técnicas anteriores utilizando ejemplos precalculados para iniciar el proceso de interpretación. .
Los investigadores también están desarrollando un conjunto de herramientas para mejorar la capacidad de los AIA para realizar experimentos más precisos en redes neuronales, tanto en entornos de caja negra como de caja blanca. Este conjunto de herramientas tiene como objetivo proporcionar a las AIA mejores herramientas para seleccionar entradas y refinar las capacidades de prueba de hipótesis para un análisis de redes neuronales más preciso y matizado. El equipo también aborda desafíos prácticos en la interpretabilidad de la IA, enfocándose en determinar las preguntas correctas al analizar modelos en escenarios del mundo real. Su objetivo es desarrollar procedimientos de interpretabilidad automatizados que, en última instancia, ayuden a las personas a probar sistemas, p. B. para conducción autónoma o reconocimiento facial: podría ayudar a diagnosticar posibles modos de falla, sesgos ocultos o comportamientos sorprendentes antes de su uso.
Mira a los observadores
El equipo imagina que algún día se desarrollarán AIA casi autónomas que puedan auditar otros sistemas, con científicos humanos proporcionando supervisión y orientación. Las AIA avanzadas podrían desarrollar nuevos tipos de experimentos y preguntas que podrían ir más allá de las consideraciones iniciales de los científicos humanos. La atención se centra en ampliar la interpretabilidad de la IA a comportamientos más complejos, como subredes o circuitos neuronales completos, y predecir entradas que podrían conducir a comportamientos indeseables. Este desarrollo representa un avance significativo en la investigación de la IA, con el objetivo de hacer que los sistemas de IA sean más comprensibles y confiables.
«Un buen punto de referencia es una herramienta poderosa para afrontar desafíos difíciles», afirma Martin Wattenberg, profesor de informática de la Universidad de Harvard que no participó en el estudio. “Es maravilloso ver este exigente punto de referencia de interpretabilidad, uno de los desafíos clave en el aprendizaje automático actual. Estoy particularmente impresionado con el agente de interpretabilidad automatizado que crearon los autores. Es una especie de jiu-jitsu de interpretabilidad que hace que la IA vuelva a sí misma para avanzar en la comprensión humana”.
Schwettmann, Rott Shaham y sus colegas presentaron su trabajo en NeurIPS 2023 en diciembre. Otros coautores del MIT, todos miembros de CSAIL y el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), incluyen a la estudiante de posgrado Joanna Materzynska, al estudiante de posgrado Neil Chowdhury, Shuang Li PhD ’23, el profesor asistente Jacob Andreas y el profesor Antonio Torralba. David Bau, profesor asistente de la Universidad Northeastern, es otro coautor.
El trabajo fue apoyado en parte por el MIT-IBM Watson AI Lab, Open Philanthropy, un Amazon Research Award, Hyundai NGV, el Laboratorio de Investigación del Ejército de EE. UU., la Fundación Nacional de Ciencias de EE. UU., el Programa de Liderazgo STEM Zuckerman y una beca Viterbi.
[ad_2]