[ad_1]
Aunque la gran mayoría de nuestras explicaciones funcionan mal, creemos que ahora podemos aprovechar las técnicas de ML para mejorar aún más nuestra capacidad de crear explicaciones. Por ejemplo, descubrimos que podríamos mejorar los resultados si:
- Declaraciones iterantes. Podemos aumentar la puntuación pidiéndole a GPT-4 que encuentre posibles contraejemplos y luego revise las explicaciones a la luz de sus activaciones.
- Usar modelos más grandes para explicar. La puntuación media aumenta a medida que aumentan las capacidades del modelo explicativo. Sin embargo, incluso GPT-4 ofrece peores explicaciones que los humanos, lo que sugiere que hay margen de mejora.
- Cambiando la arquitectura del modelo explicado. Los modelos de entrenamiento con diferentes funciones de activación mejoraron los valores explicativos.
Abrimos nuestros conjuntos de datos y herramientas de visualización para explicaciones escritas de GPT-4 de las 307,200 neuronas en GPT-2, así como código para explicaciones y evaluaciones utilizando modelos disponibles públicamente en la API de OpenAI. Esperamos que la comunidad de investigación desarrolle nuevas técnicas para generar explicaciones con puntuaciones más altas y mejores herramientas para explorar GPT-2 utilizando explicaciones.
Encontramos más de 1000 neuronas con explicaciones que obtuvieron una puntuación de al menos 0,8, lo que significa que representan la mayoría del comportamiento de activación principal de la neurona según GPT-4. La mayoría de estas neuronas bien explicadas no son muy interesantes. Sin embargo, también encontramos muchas neuronas interesantes que GPT-4 no entendía. Esperamos que al mejorar las explicaciones podamos obtener rápidamente conocimientos cualitativos interesantes sobre los cálculos del modelo.
[ad_2]