[ad_1]

Un usuario podría pedirle a ChatGPT que escriba un programa de computadora o resuma un artículo, y el chatbot de IA probablemente podría generar código útil o escribir un resumen convincente. Sin embargo, alguien también podría pedir instrucciones sobre cómo construir una bomba, y el chatbot podría proporcionárselas también.

Para evitar este y otros problemas de seguridad, las empresas que crean modelos de lenguaje grandes generalmente los protegen mediante un proceso llamado red teaming. Equipos de evaluadores humanos escriben indicaciones destinadas a activar textos inseguros o tóxicos en el modelo que se está probando. Estas indicaciones se utilizan para enseñarle al chatbot a evitar este tipo de respuestas.

Sin embargo, esto sólo funciona eficazmente si los ingenieros saben qué indicaciones tóxicas utilizar. Si los evaluadores humanos omiten algunas indicaciones, lo que probablemente se deba a la multitud de posibilidades, un chatbot que se considera seguro aún puede generar respuestas inseguras.

Los investigadores del Improbable AI Lab del MIT y del MIT-IBM Watson AI Lab utilizaron el aprendizaje automático para mejorar los equipos rojos. Desarrollaron una técnica para entrenar un modelo de lenguaje de gran equipo rojo para generar automáticamente varios mensajes que desencadenan una gama más amplia de respuestas indeseables del chatbot bajo prueba.

Lo hacen enseñándole al modelo del equipo rojo a tener curiosidad al escribir indicaciones y a concentrarse en indicaciones novedosas que provocan reacciones tóxicas en el modelo objetivo.

La técnica superó a los probadores humanos y otros enfoques de aprendizaje automático al generar indicaciones más explícitas que provocaron respuestas cada vez más tóxicas. Su método no solo mejora significativamente la cobertura de las entradas probadas en comparación con otros métodos automatizados, sino que también puede extraer reacciones tóxicas de un chatbot que tiene medidas de seguridad integradas por expertos humanos.

“En este momento, cada modelo de lenguaje grande tiene que pasar por una fase muy larga de formación de equipos rojos para garantizar su seguridad. Esto no será sostenible si queremos actualizar estos modelos en entornos que cambian rápidamente. Nuestro método proporciona una forma más rápida y eficaz de realizar este control de calidad”, afirma Zhang-Wei Hong, estudiante de posgrado en ingeniería eléctrica e informática (EECS) en el laboratorio de IA Improbable y autor principal de un artículo sobre este enfoque de equipo rojo.

Los coautores de Hong incluyen a los graduados de EECS Idan Shenfield, Tsun-Hsuan Wang y Yung-Sung Chuang; Aldo Pareja y Akash Srivastava, científicos investigadores del MIT-IBM Watson AI Lab; James Glass, científico investigador senior y líder del Grupo de Sistemas de Lenguaje Hablado en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL); y el autor principal Pulkit Agrawal, director del Improbable AI Lab y profesor asistente en CSAIL. La investigación se presentará en la Conferencia Internacional sobre Representaciones del Aprendizaje.

Equipo rojo automatizado

Los modelos de lenguaje grandes, como los que impulsan los chatbots de IA, a menudo se entrenan presentándoles cantidades masivas de texto de miles de millones de sitios web públicos. No sólo pueden aprender a usar palabras tóxicas o describir actividades ilegales, sino que los modelos también podrían revelar información personal que puedan haber recopilado.

La naturaleza laboriosa y costosa del equipo rojo humano, que a menudo es incapaz de generar una variedad suficientemente amplia de indicaciones para proteger completamente un modelo, ha alentado a los investigadores a automatizar el proceso mediante el aprendizaje automático.

Estas técnicas suelen entrenar un modelo de equipo rojo mediante el aprendizaje por refuerzo. Este proceso de prueba y error recompensa al modelo del equipo rojo por generar indicaciones que desencadenan respuestas tóxicas del chatbot bajo prueba.

Pero debido a la forma en que funciona el aprendizaje por refuerzo, el modelo del equipo rojo a menudo genera algunas indicaciones similares una y otra vez que son extremadamente tóxicas para maximizar su recompensa.

Para su enfoque de aprendizaje por refuerzo, los investigadores del MIT utilizaron una técnica llamada exploración curiosa. El modelo del Equipo Rojo tiene el incentivo de sentir curiosidad por las consecuencias de cada mensaje que genera, por lo que prueba mensajes con diferentes palabras, patrones de oraciones o significados.

«Si el modelo del equipo rojo ya ha visto un mensaje en particular, reproducirlo no despertará curiosidad en el modelo del equipo rojo, lo que lo obligará a crear nuevos mensajes», dice Hong.

Durante su proceso de formación, el modelo Red Team genera un mensaje e interactúa con el chatbot. El chatbot responde y un clasificador de seguridad califica la toxicidad de su respuesta y recompensa al modelo del equipo rojo en función de esa puntuación.

Curiosidad gratificante

El objetivo del modelo del equipo rojo es maximizar la recompensa provocando una respuesta aún más tóxica con una solicitud novedosa. Los investigadores fomentan la curiosidad en el modelo del equipo rojo modificando la señal de recompensa en la configuración del aprendizaje por refuerzo.

En primer lugar, además de maximizar la toxicidad, incluyen una bonificación de entropía que anima al modelo del Equipo Rojo a ser más aleatorio al explorar diferentes indicaciones. En segundo lugar, incluyen dos nuevas recompensas para mantener la curiosidad del agente. Uno recompensa al modelo en función de la similitud de las palabras en sus indicaciones, el otro recompensa al modelo en función de la similitud semántica. (Menos similitud conduce a una mayor recompensa).

Para evitar que el modelo del equipo rojo genere texto aleatorio y sin sentido que pueda engañar al clasificador para que asigne una puntuación de toxicidad alta, los investigadores también agregaron una bonificación de lenguaje naturalista al objetivo del entrenamiento.

Con estas adiciones, los investigadores compararon la toxicidad y la variedad de respuestas que generó su modelo de equipo rojo con otras técnicas automatizadas. Su modelo superó los valores de referencia en ambas métricas.

También utilizaron su modelo de equipo rojo para probar un chatbot que estaba adaptado a los comentarios humanos para no proporcionar respuestas dañinas. Su enfoque impulsado por la curiosidad pudo producir rápidamente 196 mensajes que provocaron respuestas tóxicas de este chatbot «seguro».

“Estamos viendo una avalancha de modelos que se espera que aumente. Imagine miles de modelos o incluso más y empresas/laboratorios que impulsan actualizaciones de modelos de forma regular. Estos modelos serán una parte integral de nuestras vidas y es importante que se revisen antes de lanzarlos para uso público. La verificación manual de modelos simplemente no es escalable y nuestro trabajo es un intento de reducir el esfuerzo humano para garantizar un futuro de IA más seguro y confiable”, afirma Agrawal.

En el futuro, los investigadores quieren permitir que el modelo del equipo rojo genere indicaciones sobre una variedad más amplia de temas. También le gustaría explorar el uso de un modelo de lenguaje grande como clasificador de toxicidad. De esta manera, un usuario podría entrenar el clasificador de toxicidad, por ejemplo, en un documento de política de la empresa, de modo que un modelo de equipo rojo podría probar un chatbot para detectar violaciones de la política de la empresa.

“Si lanza un nuevo modelo de IA y le preocupa si se comportará como se espera, considere formar un curioso equipo rojo”, dice Agrawal.

Esta investigación está financiada en parte por Hyundai Motor Company, Quanta Computer Inc., el MIT-IBM Watson AI Lab, una subvención de investigación MLRA de Amazon Web Services, la Oficina de Investigación del Ejército de EE. UU. y el Programa de Sentido Común de Máquinas de la Agencia de Proyectos de Investigación Avanzada de Defensa de EE. UU. , la Oficina de Investigación Naval de EE. UU., el Laboratorio de Investigación de la Fuerza Aérea de EE. UU. y el Acelerador de Inteligencia Artificial de la Fuerza Aérea de EE. UU.

[ad_2]