[ad_1]
Nota: Como parte de nuestra Marco de preparaciónEstamos invirtiendo en el desarrollo de métodos de evaluación mejorados para los riesgos de seguridad impulsados por la IA. Creemos que estos esfuerzos se beneficiarían de aportes más amplios y que compartir métodos también podría ser valioso para la comunidad de investigación de riesgos de IA. Con este fin, presentamos algunos de nuestros primeros trabajos que ahora se centran en los riesgos biológicos. Esperamos escuchar comentarios de la comunidad y compartir más sobre nuestra investigación en curso.
Fondo. A medida que OpenAI y otros desarrolladores de modelos desarrollen sistemas de IA más potentes, crecerá el potencial para usos tanto beneficiosos como perjudiciales de la IA. Un uso potencialmente dañino destacado por investigadores y formuladores de políticas es la capacidad de los sistemas de inteligencia artificial para ayudar a actores maliciosos a crear amenazas biológicas (ver, por ejemplo, Casa Blanca 2023, Lovelace 2022, Sandbrink 2023). En un ejemplo hipotético analizado, un actor malintencionado podría utilizar un modelo de alto rendimiento para desarrollar un protocolo paso a paso, solucionar problemas de procedimientos de laboratorio húmedo o incluso ejecutar de forma independiente pasos del proceso de generación de amenazas biológicas si tiene acceso a herramientas como la nube. laboratorios (ver Carter et al., 2023). Sin embargo, la evaluación de la viabilidad de tales ejemplos hipotéticos se ha visto limitada por evaluaciones y datos insuficientes.
Con base en nuestro Marco de Preparación publicado recientemente, estamos desarrollando métodos para evaluar empíricamente estos tipos de riesgos para ayudarnos a comprender dónde estamos hoy y dónde podríamos estar en el futuro. Aquí describimos una nueva evaluación que podría servir como un potencial «cable trampa» que indique la necesidad de precaución y pruebas adicionales del potencial de abuso biológico. El objetivo de esta evaluación es medir si los modelos podrían mejorar significativamente el acceso de los actores maliciosos a información peligrosa sobre el surgimiento de amenazas biológicas en comparación con los recursos existentes (por ejemplo, Internet).
Para evaluar esto, llevamos a cabo un estudio con 100 participantes humanos, que consta de (a) 50 expertos en biología con títulos de doctorado y experiencia profesional en laboratorios húmedos y (b) 50 participantes de nivel universitario que han completado al menos un curso universitario en biología. . Cada grupo de participantes fue asignado aleatoriamente a un grupo de control que tenía acceso únicamente a Internet o a un grupo de tratamiento que tenía acceso a GPT-4 además de Internet. Luego se pidió a cada participante que completara una serie de tareas que cubrían aspectos del proceso de extremo a extremo de aparición de amenazas biológicas.[^1] Hasta donde sabemos, esta es la evaluación humana más grande hasta la fecha del impacto de la IA en la información sobre riesgos biológicos.
Resultados. Nuestro estudio evaluó las mejoras de rendimiento de los participantes con acceso a GPT-4 en cinco métricas (precisión, integridad, innovación, tiempo requerido y dificultad autoevaluada) y cinco etapas en el proceso de aparición de amenazas biológicas (idea, captura, ampliación, formulación). . , y liberar). Hemos visto ligeras mejoras en la precisión y la integridad para quienes tienen acceso al modelo de lenguaje. Específicamente, en una escala de 10 puntos que mide la precisión de las respuestas, observamos un aumento en la puntuación promedio de 0,88 para los expertos y 0,25 para los estudiantes en comparación con la línea de base de Internet únicamente, así como aumentos similares en la completitud (0,82 para los expertos y 0,41 para los estudiantes). . Sin embargo, los tamaños del efecto obtenidos no fueron lo suficientemente grandes como para ser estadísticamente significativos, y nuestro estudio destacó la necesidad de realizar más investigaciones sobre qué umbrales de desempeño indican un aumento significativo en el riesgo. Además, observamos que el acceso a la información por sí solo no es suficiente para crear una amenaza biológica y que esta evaluación no prueba el éxito en la construcción física de las amenazas.
A continuación explicamos con más detalle nuestro proceso de evaluación y los resultados resultantes. También analizamos varias ideas metodológicas relacionadas con la identificación de capacidades y consideraciones de seguridad necesarias para realizar este tipo de evaluación con modelos de límites a gran escala. También discutimos las limitaciones de la significancia estadística como método eficaz para medir el riesgo del modelo y la importancia de nuevas investigaciones para evaluar la validez de los resultados de la evaluación del modelo.
[ad_2]