[ad_1]
La información de identificación personal (PII) está en todas partes hoy en día. La PII está contenida en correos electrónicos, mensajes de Slack, vídeos, archivos PDF, etc. Esto significa cualquier dato o información que pueda usarse para identificar a una persona específica. La PII es de naturaleza sensible e incluye varios tipos de datos personales, tales como: B. Nombre, información de contacto, números de identificación, información financiera, información médica, datos biométricos, fecha de nacimiento, etc.
Encontrar y procesar datos personales es fundamental para proteger la privacidad, garantizar la seguridad de los datos, cumplir con las leyes y regulaciones y mantener la confianza con los clientes y partes interesadas. Es una parte importante de las prácticas modernas de gestión de datos y ciberseguridad. Pero encontrar datos personales en el pantano de datos electrónicos puede ser un desafío para una empresa. Estos desafíos surgen del enorme volumen y diversidad de datos, la fragmentación de datos, el cifrado, el intercambio de datos, el contenido dinámico, los falsos positivos y negativos, la comprensión contextual, la complejidad legal, las limitaciones de recursos, los datos en evolución, el contenido generado por el usuario y las amenazas adaptativas. Sin embargo, no identificar y procesar con precisión los datos personales puede tener graves consecuencias para las empresas. Las consecuencias pueden incluir sanciones legales, demandas, daños a la reputación, costos por violación de datos, investigaciones regulatorias, interrupción del negocio, pérdida de confianza y sanciones.
En el sistema jurídico, el descubrimiento es el proceso legal que rige el derecho a recibir y la obligación de producir hechos no privilegiados relevantes para las reclamaciones o defensas de una parte en un litigio. El descubrimiento electrónico, también conocido como eDiscovery, es el aspecto electrónico de identificar, recopilar y producir información almacenada electrónicamente (ESI) en respuesta a una solicitud de producción en un litigio o investigación. En el ámbito jurídico, a menudo es necesario identificar, recopilar y presentar ESI durante un litigio o una investigación. Cuando las empresas participan en litigios de respuesta a citaciones con eDiscovery, probablemente les preocupa que la información personal pueda compartirse sin darse cuenta. Muchas organizaciones, incluidas agencias gubernamentales, distritos escolares y profesionales del derecho, enfrentan el desafío de identificar y limpiar con precisión datos personales a escala. Especialmente cuando se forma parte de un grupo gubernamental, redactar información personal a través de la Ley de Libertad de Información y la Ley de Servicios Digitales es fundamental para proteger la privacidad individual, garantizar el cumplimiento de las leyes de protección de datos, prevenir el robo de identidad y mantener la confianza. Mantener la transparencia en el gobierno y servicios digitales. Logra un equilibrio entre transparencia y privacidad al tiempo que mitiga los riesgos legales y de seguridad.
Las organizaciones pueden buscar PII utilizando métodos como búsquedas de palabras clave, coincidencia de patrones, herramientas de prevención de pérdida de datos, aprendizaje automático (ML), análisis de metadatos, software de clasificación de datos, reconocimiento óptico de caracteres (OCR), toma de huellas digitales de documentos y cifrado.
Logiccull, que ahora forma parte de la plataforma eDiscovery impulsada por IA de Reveal, es una solución de autoservicio que permite a los profesionales legales procesar, revisar, etiquetar y producir documentos electrónicos como parte de una demanda o investigación. Esta oferta única ayuda a los abogados a descubrir información valiosa relacionada con el asunto en cuestión mientras reduce costos, acelera las resoluciones y mitiga riesgos.
En esta publicación, los expertos de Reveal comparten cómo utilizaron Amazon Comprehend en su proceso de procesamiento de documentos para detectar y redactar piezas individuales de PII. Amazon Comprehend es un servicio de procesamiento del lenguaje natural (NLP) totalmente administrado y capacitado continuamente que puede proporcionar información sobre el contenido de un documento o texto. Puede utilizar las capacidades de aprendizaje automático de Amazon Comprehend para descubrir y limpiar datos personales en correos electrónicos de clientes, tickets de soporte, reseñas de productos, redes sociales y más.
Descripción general de la solución
El objetivo general del equipo de ingeniería es descubrir y limpiar datos personales de millones de documentos legales para sus clientes. Utilizando la solución Logiccull de Reveal, el equipo de ingeniería implementó dos procesos: detección de PII de primer paso y detección y redacción de PII de segundo paso. Esta solución de dos pasos fue posible gracias al uso de las API ContienePiiEntities y DetectPiiEntities.
Detección de PII en el primer pase
El objetivo de la detección de PII en el primer paso es encontrar los documentos que puedan contener PII.
- Los usuarios cargan los archivos para los que desean realizar la detección y redacción de PII en una carpeta de proyecto a través del sitio web público de logiccull. Estos archivos pueden tener la forma de documentos de Office, archivos PDF, correos electrónicos o un archivo ZIP que contenga todos los tipos de archivos admitidos.
- logiccull almacena de forma segura estas carpetas de proyectos en un depósito de Amazon Simple Storage Service (Amazon S3). Luego, los archivos pasan a través del proceso de procesamiento paralelo masivo de Logiccull alojado en Amazon Elastic Compute Cloud (Amazon EC2), que procesa los archivos, extrae los metadatos y genera artefactos en formato de texto para la verificación de datos. El proceso de procesamiento de Logiccull admite la extracción de texto para una variedad de formularios y archivos, incluidos archivos de audio y video.
- Una vez que los archivos estén disponibles en formato de texto, logiccull pasa el texto de entrada junto con el modelo de idioma (inglés) a través de Amazon Comprehend realizando la llamada a la API ContienePiiEntities. Los servidores de canalización de procesamiento alojados en Amazon EC2 hacen que Amazon Comprehend
ContainsPiiEntities
Llamada API pasando los parámetros de solicitud como texto y código de voz. ElContainsPiiEntities
La llamada API analiza el texto de entrada para detectar la presencia de PII y devuelve las etiquetas de los tipos de entidades de PII identificados, p. Por ejemplo, nombre, dirección, número de cuenta bancaria o número de teléfono. La respuesta de la API también incluye una puntuación de confianza, que indica el nivel de confianza que Amazon Comprehend asignó a la precisión de la detección. El valor de confianza tiene un valor entre 0 y 1, donde 1 significa 100 por ciento de confianza. Logiccull utiliza este valor de confianza para asignar la etiqueta «PII detectada» a los documentos. Logiccull solo asigna esta etiqueta a documentos que tienen una puntuación de confianza superior a 0,75. - Los documentos etiquetados y detectados con PII se introducen en el grupo de índice de búsqueda de Logiccull para ayudar a sus usuarios a identificar rápidamente documentos que contienen entidades de PII.
Detección y redacción de PII de segundo paso
El proceso de descubrimiento de PII de primer paso limita el alcance del conjunto de datos al identificar qué documentos contienen información de PII. Esto acelera el proceso de detección de PII y también reduce los costos generales. El objetivo de la detección de PII en el segundo paso es identificar las instancias de PII individuales y eliminarlas de los documentos etiquetados en el primer paso.
- Los usuarios buscan documentos que contienen PII a través del sitio web de Logiccull utilizando la función de filtrado de búsqueda avanzada de Logiccull.
- La solicitud es procesada por los servidores de aplicaciones de Logiccull alojados en Amazon EC2 y los servidores se comunican con el clúster de índice de búsqueda para encontrar los documentos.
- Los servidores de aplicaciones Logiccull pueden identificar cada instancia de PII realizando la llamada a la API DetectPiiEntities. Los servidores realizan la llamada API pasando el texto y el idioma de los documentos de entrada. El
DetectPiiEntities
La acción API verifica el texto de entrada en busca de entidades que contengan datos personales. Para cada entidad, la respuesta proporciona el tipo de entidad, dónde comienza y termina el texto de la entidad y el nivel de confianza que Amazon Comprehend tiene para reconocerlo. - Luego, los usuarios seleccionan las entidades específicas que desean redactar utilizando la interfaz web de logiccull. El servidor de aplicaciones envía estas solicitudes a la canalización de procesamiento logiccull. La siguiente es una captura de pantalla de un archivo PDF cargado en la aplicación de logiccull. En la captura de pantalla siguiente, puede ver que se han resaltado varias entidades de PII, como nombre, dirección, número de teléfono, dirección de correo electrónico, etc.
- La redacción de PII se aplica de forma segura en el proceso de procesamiento de Logiccull mediante una lógica empresarial personalizada. En la captura de pantalla a continuación, puede ver que los usuarios pueden seleccionar tipos de entidades de PII específicos o todos los tipos de entidades de PII que desean redactar y luego redactar toda la información de PII con solo hacer clic en un botón.
Resultados
Logiccull, una tecnología de Reveal, procesa actualmente más de 20 millones de documentos por semana y ha podido reducir el alcance de la detección utilizando ContainsPiiEntities
API y muestre instancias individuales de entidades PII a sus clientes utilizando la DetectPiiEntities
API.
«Con Amazon Comprehend, Logiccull pudo ofrecer potentes capacidades de PNL rápidamente y en una fracción del tiempo que habría llevado una solución personalizada».
– Steve Newhouse, vicepresidente de producto de Logiccull.
Diploma
Con Amazon Comprehend, la tecnología Logiccull de Reveal puede realizar la detección de PII a escala y a un costo relativamente bajo. El ContainsPiiEntities
La API se utiliza para realizar un escaneo inicial de millones de documentos. El DetectPiiEntities
La API se utiliza para realizar análisis detallados de miles de documentos e identificar piezas individuales de PII dentro de sus documentos.
Consulte todas las funciones de Amazon Comprehend. Pruebe las funciones y envíenos sus comentarios a través del Foro AWS Amazon Comprehend o a través de sus contactos habituales de soporte de AWS.
Sobre los autores
Aman Tiwari es un arquitecto de soluciones generales que trabaja en ventas comerciales globales en AWS. Trabaja con clientes en el segmento de negocios nativos digitales y los ayuda a desarrollar soluciones innovadoras, resistentes y rentables utilizando los servicios de AWS. Tiene una maestría en redes de telecomunicaciones de la Northeastern University. Fuera del trabajo, le gusta jugar tenis sobre hierba y leer libros.
Jeff Newburn es Gerente Senior de Ingeniería de Software y lidera el equipo de Ingeniería de Datos en Logiccull – A Reveal Technology. Supervisa las iniciativas de datos de la empresa, incluidos almacenes de datos, visualizaciones, análisis y aprendizaje automático. Con experiencia en desarrollo y gestión en áreas que van desde viajes compartidos hasta sistemas de datos, le gusta liderar equipos de ingenieros brillantes para crear productos interesantes.
Søren Rubio Daugaard es ingeniero de plantilla en el equipo de ingeniería de datos de Logiccull – A Reveal Technology. Implementa soluciones de inteligencia artificial y aprendizaje automático altamente escalables en el producto Logiccull, lo que permite a nuestros clientes hacer su trabajo de manera más eficiente y precisa. Su experiencia incluye canalizaciones de datos, sistemas basados en web y sistemas de aprendizaje automático.
Kevin Lufkin es ingeniero de software sénior en el equipo de ingeniería de búsqueda de logiccull – A Reveal Technology, donde se centra en el desarrollo de funciones relacionadas con la búsqueda y orientadas al cliente. Su amplia experiencia en UI/UX se complementa con experiencia en desarrollo web completo, con un fuerte enfoque en hacer realidad las visiones de los productos.
[ad_2]