Marque contenido dañino utilizando la detección de toxicidad de Amazon Comprehend

[ad_1]

Las comunidades en línea impulsan la participación de los usuarios en industrias como los juegos, las redes sociales, el comercio electrónico, las citas y el aprendizaje electrónico. Los miembros de estas comunidades en línea confían en los propietarios de las plataformas para que les proporcionen un entorno seguro e inclusivo en el que puedan consumir contenido y contribuir libremente. Los moderadores de contenido a menudo tienen la tarea de revisar el contenido generado por el usuario y verificar que sea seguro y cumpla con sus términos de servicio. Sin embargo, el tamaño, la complejidad y la variedad cada vez mayores del contenido inapropiado hacen que los procesos de moderación humana sean costosos y no escalables. El resultado son comunidades pobres, tóxicas y no inclusivas que alienan a los usuarios e impactan negativamente a la comunidad y las empresas.

Además del contenido generado por el usuario, el contenido generado por máquinas presenta un nuevo desafío para la moderación de contenido: crea automáticamente contenido muy realista que puede ser inapropiado o dañino a gran escala. La industria enfrenta el nuevo desafío de moderar automáticamente el contenido generado por IA para proteger a los usuarios de material dañino.

En esta publicación, presentamos la detección de toxicidad, una nueva característica de Amazon Comprehend que le ayuda a detectar automáticamente contenido dañino en texto generado por usuarios o máquinas. Esto incluye texto sin formato, texto extraído de imágenes y texto transcrito de contenido de audio o vídeo.

Detecta toxicidad en contenido de texto con Amazon Comprehend

Amazon Comprehend es un servicio de procesamiento de lenguaje natural (NLP) que utiliza aprendizaje automático (ML) para descubrir información y conexiones valiosas en el texto. Ofrece una gama de modelos de aprendizaje automático que se pueden entrenar previamente o personalizar a través de interfaces API. Amazon Comprehend ahora ofrece una solución sencilla basada en PNL para detectar contenido malicioso en texto.

La API de detección de toxicidad de Amazon Comprehend asigna al contenido de texto una puntuación de toxicidad general en el rango de 0 a 1, lo que indica la probabilidad de que sea tóxico. También divide el texto en las siguientes siete categorías y proporciona una puntuación de confianza para cada una:

EL DISCURSO DEL ODIO – Declaraciones que critiquen, insulten, denuncien o deshumanicen a una persona o grupo en función de su identidad, ya sea raza, etnia, identidad de género, religión, orientación sexual, capacidad, origen nacional u otro grupo identitario.
GRÁFICO – Discurso que utiliza imágenes visualmente descriptivas, detalladas e incómodamente vívidas. Estas expresiones suelen estar redactadas en detalle para reforzar un insulto, malestar o daño al destinatario.
ACOSO_O_ABUSO – El lenguaje que crea una dinámica de poder disruptiva entre el hablante y el oyente (independientemente de la intención), tiene como objetivo dañar el bienestar psicológico del receptor o objetivar a una persona.
SEXUALMENTE – Lenguaje que indica interés, actividad o excitación sexual utilizando referencias directas o indirectas a partes del cuerpo, características físicas o género.
VIOLENCIA_O_AMENAZA – Declaraciones que contengan amenazas destinadas a causar dolor, daño u hostilidad a una persona o grupo.
INSULTO – Declaraciones que contengan lenguaje denigrante, denigrante, burlón, insultante o despectivo.
BLASFEMIA – Declaraciones que contengan palabras, frases o siglas que sean groseras, vulgares u ofensivas.

Puede acceder a la API de detección de toxicidad llamándola directamente desde la interfaz de línea de comandos de AWS (AWS CLI) y los SDK de AWS. Actualmente, la detección de toxicidad en Amazon Comprehend está disponible en inglés.

casos de uso

La moderación de texto juega un papel crucial en la gestión del contenido generado por el usuario en varios formatos, incluidas publicaciones en redes sociales, mensajes de chat en línea, debates en foros, comentarios de sitios web y más. Además, las plataformas que aceptan contenido de video y audio pueden usar esta función para moderar el contenido de audio transcrito.

La aparición de la IA generativa y los grandes modelos de lenguaje (LLM) representa la última tendencia en el campo de la IA. Como resultado, existe una necesidad creciente de soluciones receptivas para moderar el contenido generado por los LLM. La API de detección de toxicidad de Amazon Comprehend es ideal para satisfacer esta necesidad.

Solicitud de API de detección de toxicidad de Amazon Comprehend

Puede enviar hasta 10 segmentos de texto a la API de detección de toxicidad, cada uno con un límite de tamaño de 1 KB. Cada segmento de texto de la solicitud se trata de forma independiente. En el siguiente ejemplo, generamos un archivo JSON llamado toxicity_api_input.json con el contenido del texto, incluidas tres secciones de texto de muestra para moderación. Tenga en cuenta que en el ejemplo las palabras profanas están enmascaradas como XXXX.

{
  "TextSegments": [     
    {"Text": "and go through the door go through the door he's on the right"},
    {"Text": "he's on the right XXXXX him"},
    {"Text": "what the XXXX are you doing man that's why i didn't want to play"}
  ],
  "LanguageCode": "en"
}

Puede utilizar la AWS CLI para llamar a la API de detección de toxicidad utilizando el archivo JSON anterior que contiene el contenido de texto:

aws comprehend detect-toxic-content --cli-input-json file://toxicity_api_input.json

Respuesta de la API de detección de toxicidad de Amazon Comprehend

La salida JSON de la respuesta de la API de detección de toxicidad contiene el resultado del análisis de toxicidad. ResultList Campo. ResultList enumera los elementos del segmento de texto y el orden representa el orden en el que se recibieron las secuencias de texto en la solicitud de API. La toxicidad representa el valor de confianza general de la detección (entre 0 y 1). Las etiquetas contienen una lista de etiquetas de toxicidad con valores de confianza categorizados por tipo de toxicidad.

El siguiente código muestra la respuesta JSON de la API de detección de toxicidad basada en el ejemplo de solicitud de la sección anterior:

{
    "ResultList": [
        {
            "Toxicity": 0.009200000204145908,
            "Labels": [
                { "Name": "PROFANITY", "Score": 0.0007999999797903001},
                { "Name": "HATE_SPEECH", "Score": 0.0017999999690800905},
                { "Name": "INSULT", "Score": 0.003000000026077032},
                { "Name": "GRAPHIC", "Score": 0.0010000000474974513},
                { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.0013000000035390258},
                { "Name": "SEXUAL", "Score": 0.0017000000225380063},
                { "Name": "VIOLENCE_OR_THREAT", "Score": 0.004999999888241291}
            ]
        },
        {
            "Toxicity": 0.7358999848365784,
            "Labels": [
                { "Name": "PROFANITY", "Score": 0.011900000274181366},
                { "Name": "HATE_SPEECH", "Score": 0.019500000402331352},
                { "Name": "INSULT", "Score": 0.0714000016450882},
                { "Name": "GRAPHIC", "Score": 0.006099999882280827},
                { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.018200000748038292},
                { "Name": "SEXUAL", "Score": 0.0027000000700354576},
                { "Name": "VIOLENCE_OR_THREAT", "Score": 0.8145999908447266}
            ]
        },
        {
            "Toxicity": 0.9843000173568726,
            "Labels": [
                { "Name": "PROFANITY", "Score": 0.9369999766349792 },
                { "Name": "HATE_SPEECH", "Score": 0.30880001187324524 },
                { "Name": "INSULT", "Score": 0.42100000381469727 },
                { "Name": "GRAPHIC", "Score": 0.12630000710487366 },
                { "Name": "HARASSMENT_OR_ABUSE", "Score": 0.25519999861717224 },
                { "Name": "SEXUAL", "Score": 0.19169999659061432 },
                { "Name": "VIOLENCE_OR_THREAT", "Score": 0.19539999961853027 }
            ]
        }
    ]
}

En el JSON anterior, el primer segmento de texto se considera seguro y tiene una puntuación de toxicidad baja. Sin embargo, el segundo y tercer segmento de texto recibieron valores de toxicidad del 73% y 98%, respectivamente. Para el segundo segmento, Amazon Comprehend detecta un alto valor de toxicidad VIOLENCE_OR_THREAT; El tercer segmento es reconocido. PROFANITY con un alto valor de toxicidad.

Solicitud de muestra utilizando el SDK de Python

El siguiente fragmento de código muestra cómo utilizar el SDK de Python para llamar a la API de detección de toxicidad. Este código recibe la misma respuesta JSON que el comando AWS CLI mostrado anteriormente.

import boto3 import base64
# Initialize a Comprehend boto3 client object
comprehend_client = session.client('comprehend')

# Call comprehend Detect Toxic Content API with text segments
response = comprehend_client.detect_toxic_content(
    TextSegments=[
        {"Text":  "and go through the door go through the door he's on the right"},
        {"Text":  "he's on the right XXXXX him"},
        {"Text":  "what the XXXX are you doing man that's why i didn't want to play"}
    ],
    LanguageCode="en"
)

Resumen

En esta publicación proporcionamos una descripción general de la nueva API de detección de toxicidad de Amazon Comprehend. También describimos cómo analizar el JSON de respuesta API. Para obtener más información, consulte el documento Comprender API.

La detección de toxicidad de Amazon Comprehend ahora está disponible de manera general en cuatro regiones: us-east-1, us-west-2, eu-west-1 y ap-southeast-2.

Para obtener más información sobre la moderación de contenido, consulte la Guía de moderación de contenido en AWS. Dé el primer paso para optimizar sus operaciones de moderación de contenido con AWS.

Sobre los autores

Lana Zhang es arquitecto de soluciones senior del equipo de servicios de inteligencia artificial de AWS WWSO y se especializa en inteligencia artificial y aprendizaje automático para moderación de contenido, visión por computadora, procesamiento de lenguaje natural e inteligencia artificial generativa. Con su experiencia, se dedica a impulsar las soluciones de IA/ML de AWS y a ayudar a los clientes a transformar sus soluciones comerciales en diversas industrias, incluidas las redes sociales, los juegos, el comercio electrónico, los medios, la publicidad y el marketing.

Ravisha SK Es gerente técnico senior de productos en AWS con un enfoque en AI/ML. Tiene más de 10 años de experiencia en análisis de datos y aprendizaje automático en diversos campos. En su tiempo libre le gusta leer, experimentar en la cocina y explorar nuevos cafés.

[ad_2]

Subscribe to Updates

What's Hot