Reconocimiento de texto alojado en modelos de lenguaje grandes - The Berkeley Artificial Intelligence Research Blog

[ad_1]

La estructura de Ghostbuster, nuestro nuevo método de vanguardia para reconocer texto generado por IA.

Los modelos de lenguajes grandes como ChatGPT escriben impresionantemente bien; de hecho, tan bien que se han convertido en un problema. Los estudiantes han comenzado a utilizar estos modelos para tareas de escritura fantasma, lo que llevó a algunas escuelas a prohibir ChatGPT. Además, estos modelos también tienden a producir texto con errores fácticos, por lo que los lectores cautelosos pueden querer saber si se han utilizado herramientas de inteligencia artificial generativa para escribir artículos de noticias u otras fuentes antes de confiar en ellos.

¿Qué pueden hacer los profesores y los consumidores? Las herramientas de reconocimiento de texto existentes generadas por IA a veces funcionan mal con datos diferentes de aquellos con los que fueron entrenadas. Además, cuando estos modelos clasifican erróneamente la escritura humana real como generada por IA, pueden poner en peligro a los estudiantes cuyo trabajo real está siendo cuestionado.

En nuestro artículo actual presentamos Ghostbuster, un método de última generación para reconocer texto generado por IA. Ghostbuster determina la probabilidad de generar cada token en un documento entre varios modelos de lenguaje más débiles y luego combina características basadas en estas probabilidades como entrada para un clasificador final. Ghostbuster no necesita saber qué modelo se utilizó para generar un documento, ni la probabilidad de que el documento se genere bajo ese modelo en particular. Esta propiedad hace que Ghostbuster sea particularmente útil para detectar texto que puede haber sido generado por un modelo desconocido o un modelo de caja negra como los populares modelos comerciales ChatGPT y Claude, para los cuales no hay probabilidades disponibles. Estamos particularmente interesados en garantizar que Ghostbuster se generalice bien. Por lo tanto, exploramos varias formas de generar texto, incluidos diferentes dominios (utilizando conjuntos de datos de ensayos, noticias e historias recién recopilados), modelos de lenguaje o indicaciones.

Ejemplos de textos escritos por humanos y generados por IA a partir de nuestros conjuntos de datos.

¿Por qué este enfoque?

Muchos sistemas actuales de reconocimiento de texto generados por IA tienen dificultades para clasificar diferentes tipos de texto (por ejemplo, diferentes estilos de escritura o diferentes modelos o indicaciones de generación de texto). Los modelos más simples que utilizan únicamente la perplejidad generalmente no pueden capturar características más complejas y funcionan particularmente mal en nuevos dominios de escritura. De hecho, descubrimos que una línea de base basada únicamente en la perplejidad era peor que el azar en algunas áreas, incluidos datos de hablantes no nativos de inglés. Mientras tanto, los clasificadores basados en grandes modelos de lenguaje como RoBERTa capturan fácilmente características complejas, pero ajustan demasiado los datos de entrenamiento y generalizan mal: encontramos que una línea base de RoBERTa tenía un rendimiento de generalización catastrófico en el peor de los casos, a veces incluso peor que una línea base de pura perplejidad. Los métodos de disparo cero que clasifican texto sin entrenamiento con datos etiquetados calculando la probabilidad de que el texto haya sido generado por un modelo en particular también tienden a funcionar mal cuando en realidad se utilizó un modelo diferente para generar el texto.

Así funciona Cazafantasmas

Ghostbuster utiliza un proceso de entrenamiento de tres etapas: cálculo de probabilidad, selección de características y entrenamiento de clasificador.

Cálculo de probabilidades: Convertimos cada documento en un conjunto de vectores calculando la probabilidad de generar cada palabra en el documento bajo un conjunto de modelos de lenguaje más débiles (un modelo de unigrama, un modelo de trigrama y dos modelos GPT-3 no alineados con declaraciones, ada y davinci).

Seleccionar características: Usamos un método de búsqueda estructurado para seleccionar características que funciona al (1) definir un conjunto de operaciones vectoriales y escalares que combinan las probabilidades y (2) buscar combinaciones útiles de estas operaciones usando la selección directa de características mientras agregamos repetidamente la mejor función restante. .

Entrenamiento clasificador: Entrenamos un clasificador lineal sobre las mejores características basadas en probabilidad y algunas características adicionales seleccionadas manualmente.

Resultados

Cuando se entrenó y probó en el mismo dominio, Ghostbuster logró 99,0 F1 en los tres conjuntos de datos, superando a GPTZero en 5,9 F1 y DetectGPT en 41,6 F1. Fuera del dominio, Ghostbuster promedió 97,0 F1 en todas las condiciones, superando a DetectGPT en 39,6 F1 y a GPTZero en 7,5 F1. Nuestra línea de base RoBERTa logró una puntuación de 98,1 F1 en la evaluación intradominio de todos los conjuntos de datos, pero su rendimiento de generalización fue inconsistente. Ghostbuster superó la línea de base de RoBERTa en todos los dominios excepto en escritura creativa fuera del dominio y, en promedio, tuvo un desempeño mucho mejor fuera del dominio que RoBERTa (margen de 13,8 F1).

Resultados de rendimiento dentro y fuera del dominio de Ghostbuster.

Para garantizar que Ghostbuster pueda resistir las diversas formas en que un usuario puede solicitar un modelo, como por ejemplo: Por ejemplo, al requerir diferentes estilos de escritura o niveles de lectura, evaluamos la solidez de Ghostbuster ante múltiples variantes de indicaciones. Ghostbuster superó a todos los demás enfoques probados con 99,5 F1 para estas variantes rápidas. Para probar la generalización entre modelos, evaluamos el rendimiento del texto generado por Claude, y Ghostbuster también superó a todos los demás enfoques probados con 92.2 F1.

Los detectores de texto generados por IA fueron engañados editando ligeramente el texto generado. Examinamos la solidez de Ghostbuster ante ediciones, como intercambiar oraciones o párrafos, reorganizar caracteres o reemplazar palabras con sinónimos. La mayoría de los cambios a nivel de oración o párrafo no afectaron significativamente el rendimiento, aunque el rendimiento disminuyó suavemente cuando el texto se editó mediante paráfrasis repetidas, el uso de preventores de detección comerciales como IA indetectable o numerosos cambios a nivel de palabras o caracteres. El rendimiento también fue mejor con documentos más largos.

Debido a que los detectores de texto generados por IA pueden clasificar incorrectamente el texto de hablantes no nativos de inglés como texto generado por IA, evaluamos el desempeño de Ghostbuster al escribir a hablantes no nativos de inglés. Todos los modelos probados tuvieron una precisión superior al 95% en dos de los tres conjuntos de datos probados, pero obtuvieron peores resultados en el tercer conjunto de artículos más cortos. Sin embargo, la longitud del documento podría ser el factor principal aquí, ya que Ghostbuster funciona casi tan bien en estos documentos (74,7 F1) como en otros documentos fuera del dominio de longitud similar (75,6 a 93,1 F1).

Los usuarios que quieran aplicar Ghostbuster a casos del mundo real donde el uso de la generación de texto puede estar prohibido (por ejemplo, ensayos de estudiantes escritos por ChatGPT) deben tener en cuenta que es más probable que se produzcan errores con textos más cortos, es decir, diferentes variedades de inglés), texto de hablantes no nativos de inglés, generaciones de modelos editados por humanos o texto generado por un modelo de IA que modifica la entrada generada por humanos. Para evitar que se perpetúen los daños algorítmicos, recomendamos encarecidamente no penalizar automáticamente el supuesto uso de generación de texto sin supervisión humana. En su lugar, recomendamos el uso cauteloso y humano de Ghostbuster cuando clasificar la escritura de una persona como generada por IA podría dañarla. Ghostbuster también puede ayudar con una variedad de aplicaciones de menor riesgo, incluido el filtrado de texto generado por IA a partir de datos de entrenamiento de modelos de lenguaje y la verificación de si las fuentes de información en línea están generadas por IA.

Diploma

Ghostbuster es un modelo de reconocimiento de texto generado por IA de última generación con un rendimiento F1 de 99,0 en todos los dominios probados, lo que representa un avance significativo con respecto a los modelos existentes. Se generaliza bien a diferentes dominios, indicaciones y modelos, y es bueno para identificar texto de cajas negras o modelos desconocidos porque no requiere acceso a las probabilidades del modelo específico utilizado para generar el documento.

Los objetivos futuros de Ghostbuster incluyen proporcionar explicaciones para las decisiones del modelo y mejorar la solidez contra ataques que intentan específicamente engañar a los detectores. Además de alternativas como las marcas de agua, también se pueden utilizar enfoques de reconocimiento de texto generados por IA. También esperamos que Ghostbuster pueda ayudar con una variedad de aplicaciones, como filtrar datos de entrenamiento de modelos de lenguaje o etiquetar contenido generado por IA en la web.

Prueba Ghostbuster aquí: Ghostbuster.app

Obtenga más información sobre Los Cazafantasmas aquí: [ paper ] [ code ]

Intenta adivinar si el texto es generado por IA aquí: ghostbuster.app/experiment

[ad_2]

Subscribe to Updates

What's Hot

Reconocimiento de texto alojado en modelos de lenguaje grandes – The Berkeley Artificial Intelligence Research Blog

¿Por qué este enfoque?

Así funciona Cazafantasmas

Resultados

Diploma

Related Posts