Investigadores de IA descubren vulnerabilidades críticas en LLM clave

[ad_1]

15 de octubre de 2023

(noticias nanowerk) Los grandes modelos de lenguaje (LLM) como ChatGPT y Bard han conquistado el mundo este año, y las empresas han invertido millones en el desarrollo de estas herramientas de inteligencia artificial y algunos chatbots de inteligencia artificial líderes por valor de miles de millones de dólares.

Estos LLM, cada vez más utilizados en chatbots de IA, buscan toda la información en Internet para aprender y proporcionar respuestas a consultas específicas de los usuarios, llamadas «mensajes».

Sin embargo, los científicos informáticos de la empresa emergente de seguridad de inteligencia artificial Mindgard y la Universidad de Lancaster en el Reino Unido han demostrado que partes de estos LLM se pueden copiar en menos de una semana por tan solo 50 dólares, y la información obtenida se puede utilizar para ataques dirigidos.

Los investigadores advierten que los atacantes que aprovechen estas vulnerabilidades podrían revelar información privada confidencial, eludir las medidas de protección, proporcionar respuestas falsas o realizar otros ataques dirigidos.

En un nuevo artículo (“Model Leeching: An Extraction Attack Targeting LLM”) presentado en CAMLIS 2023 (Conferencia sobre aprendizaje automático aplicado para la seguridad de la información), los investigadores muestran en detalle que es posible explotar de forma rentable aspectos clave de los LLM existentes. copiar Demuestran que las vulnerabilidades se transfieren entre diferentes modelos.

Este ataque, llamado «sanguijuela de modelo», funciona comunicándose con los LLM (obligándoles a proporcionar una serie de indicaciones específicas) de una manera que les brinda a los LLM información detallada sobre cómo funciona el modelo.

El equipo de investigación, que centró su estudio en ChatGPT-3.5-Turbo, luego utilizó este conocimiento para crear su propio modelo de copia que era 100 veces más pequeño pero replicaba aspectos clave del LLM.

Luego, los investigadores pudieron utilizar esta copia del modelo como campo de pruebas para descubrir cómo explotar secretamente las vulnerabilidades en ChatGPT. Luego pudieron utilizar los conocimientos obtenidos de su modelo para atacar las vulnerabilidades en ChatGPT con una tasa de éxito un 11% mayor.

Dr. Peter Garraghan de la Universidad de Lancaster, director ejecutivo de Mindgard e investigador principal de la investigación, dijo: “Lo que hemos descubierto es científicamente fascinante pero extremadamente preocupante. Este es uno de los primeros trabajos que muestra empíricamente que las vulnerabilidades se pueden transferir con éxito entre modelos de aprendizaje automático de código cerrado y de código abierto, lo cual es extremadamente preocupante dada la dependencia de la industria de modelos de aprendizaje automático disponibles públicamente, alojados en lugares como HuggingFace. .”

Los investigadores dicen que su trabajo muestra que, si bien estas poderosas tecnologías de inteligencia artificial digital tienen usos claros, existen debilidades ocultas e incluso pueden haber vulnerabilidades comunes en todos los modelos.

Actualmente, empresas de todos los sectores están invirtiendo, o preparándose para invertir, miles de millones en el desarrollo de sus propios LLM para asumir una amplia gama de tareas, como asistentes inteligentes. Los servicios financieros y las grandes corporaciones están adoptando estas tecnologías, pero los investigadores dicen que estas vulnerabilidades deberían ser una preocupación importante para cualquier empresa que planee construir o utilizar LLM de terceros.

Dr. Garraghan dijo: «Si bien la tecnología LLM es potencialmente transformadora, tanto las empresas como los académicos deben pensar con mucho cuidado acerca de comprender y medir los riesgos cibernéticos asociados con la adopción y el despliegue de LLM».

[ad_2]

Subscribe to Updates

What's Hot

Investigadores de IA descubren vulnerabilidades críticas en LLM clave

Related Posts