[ad_1]
En todas las industrias, todos los días se procesan grandes volúmenes de documentos comerciales. Muchos de estos documentos están en papel, escaneados en su sistema como imágenes o en un formato no estructurado como PDF. Cada empresa puede aplicar reglas únicas asociadas con sus antecedentes comerciales al procesar estos documentos. Extraer información con precisión y procesarla de manera flexible es un desafío para muchas empresas.
Con Amazon Intelligent Document Processing (IDP), puede aprovechar la tecnología de aprendizaje automático (ML) líder en la industria sin experiencia previa en ML. Esta publicación presenta una solución incluida en el taller de IDP de Amazon y muestra cómo se procesan los documentos para cumplir con las reglas comerciales flexibles utilizando los servicios de IA de Amazon. Puede usar el siguiente cuaderno de Jupyter paso a paso para completar el laboratorio.
Amazon Textract lo ayuda a extraer fácilmente texto de varios documentos, y Amazon Augmented AI (Amazon A2I) le permite implementar la verificación humana de las predicciones de ML. Con la plantilla predeterminada de Amazon A2I, puede crear una canalización de verificación humana basada en reglas como: B. cuando el valor de confianza de extracción es inferior a un umbral predefinido o faltan las claves requeridas. Sin embargo, en un entorno de producción, necesita la canalización de procesamiento de documentos para admitir reglas comerciales flexibles, p. Por ejemplo, validación de formato de cadena, validación de rango y tipo de datos, y validación de campos de documentos cruzados. Esta publicación muestra cómo usar Amazon Textract y Amazon A2I para personalizar una canalización de procesamiento de documentos genéricos que admita reglas comerciales flexibles.
descripción general de la solución
Para nuestra solución de muestra, utilizaremos el formulario de impuestos 990, un formulario del Servicio de Impuestos Internos (IRS) de EE. UU. que proporciona información financiera sobre una organización sin fines de lucro al público. En este ejemplo, solo cubrimos la lógica de extracción para algunos de los campos en la primera página del formulario. Se pueden encontrar documentos de muestra adicionales en el sitio web del IRS.
El siguiente diagrama ilustra la canalización de IDP que admite reglas comerciales personalizadas con verificación humana.
La arquitectura consta de tres etapas lógicas:
- extracción – Extraer datos del modelo fiscal 990 (utilizamos la página 1 como ejemplo).
- Recupere una imagen de muestra almacenada en un depósito de Amazon Simple Storage Service (Amazon S3).
- Llame a la API de análisis_documento de Amazon Textract con la función de consulta para extraer texto de la página.
- validación – Aplique reglas comerciales flexibles con verificación humana en el circuito.
- Valide los datos extraídos con las reglas comerciales, como B. Validación de la longitud de un campo de ID.
- Envíe el documento a Amazon A2I para que un empleado lo revise si fallan las reglas comerciales.
- Los revisores utilizan la interfaz de usuario de Amazon A2I (un sitio web personalizable) para verificar el resultado de la extracción.
- visualización de BI – Usamos Amazon QuickSight para crear un panel de Business Intelligence (BI) que muestra la información del proceso.
Personalice las reglas comerciales
Puede definir una regla comercial genérica en el siguiente formato JSON. En el código de ejemplo, definimos tres reglas:
- La primera regla se aplica al campo ID de empleador. La regla falla si la puntuación de confianza de Amazon Textract es inferior al 99 %. Para esta publicación, establecimos un umbral de confianza alto, que se rompe intencionalmente. Puede establecer el umbral en un valor más razonable para reducir el esfuerzo humano innecesario en un entorno real, p. B 90%.
- La segunda regla se aplica al campo DLN (el identificador único del formulario de impuestos), que se requiere para la lógica de procesamiento posterior. Esta regla falla si falta el campo DLN o tiene un valor vacío.
- La tercera regla también se aplica al campo DLN, pero con un tipo de condición diferente: Comprobación de longitud. La regla se rompe si la longitud de DLN no es de 16 caracteres.
El siguiente código muestra nuestras reglas de negocio en formato JSON:
Puede ampliar la solución agregando más reglas comerciales que sigan la misma estructura.
Extraer texto con una consulta de Amazon Textract
En la solución de ejemplo, llamamos a la función de consulta de la API de análisis_documento de Amazon Textract para extraer campos haciendo preguntas específicas. No necesita conocer la estructura de los datos en el documento (tabla, formulario, campo implícito, datos anidados) ni preocuparse por las variaciones entre versiones y formatos del documento. Las consultas utilizan una combinación de indicaciones visuales, espaciales y verbales para extraer la información que busca con gran precisión.
Para extraer el valor del campo DLN, puede enviar una solicitud con preguntas en lenguaje natural, p. B. «¿Qué es la DLN?» Amazon Textract devuelve el texto, la confianza y otros metadatos cuando encuentra información coincidente sobre la imagen o el documento. El siguiente es un ejemplo de una solicitud de consulta de Amazon Textract:
Definir el modelo de datos
La solución de muestra crea los datos en un formato estructurado para servir la evaluación de reglas comerciales genéricas. Para conservar los valores extraídos, puede definir un modelo de datos para cada página del documento. La siguiente imagen muestra cómo el texto de la página 1 se asigna a los campos JSON.
Cada cuadro representa el texto de un documento, una casilla de verificación o una tabla/celda de formulario en la página. El objeto JSON se parece al siguiente código:
La definición detallada de la estructura JSON se puede encontrar en el repositorio de GitHub.
Evaluar los datos en función de las reglas de negocio
La solución de muestra incluye una clase de condición: un motor de reglas genérico que usa los datos extraídos (como se define en el modelo de datos) y las reglas (como se define en las reglas comerciales personalizadas). Devuelve dos listas de condiciones fallidas y cumplidas. Podemos usar el resultado para decidir si enviar el documento a Amazon A2I para la verificación humana.
El código fuente de la clase Condition está en el repositorio de muestra de GitHub. Es compatible con la lógica de validación básica, p. Por ejemplo, validar la longitud, el rango y el umbral de confianza de una cadena. Puede cambiar el código para admitir más tipos de condiciones y una lógica de validación compleja.
Cree una interfaz de usuario web personalizada de Amazon A2I
Con Amazon A2I, puede personalizar la interfaz de usuario web del validador definiendo una plantilla de tarea de trabajador. La plantilla es una página web estática en HTML y JavaScript. Puede pasar datos a la página del revisor personalizado usando la sintaxis de Liquid.
En la solución de ejemplo, la plantilla de interfaz de usuario personalizada de Amazon A2I muestra la página a la izquierda y las condiciones de error a la derecha. Los revisores pueden usarlo para corregir el valor de extracción y agregar sus comentarios.
La siguiente captura de pantalla muestra nuestra interfaz de usuario personalizada de Amazon A2I. Muestra el documento de imagen original a la izquierda y las siguientes condiciones fallidas a la derecha:
- Los números DLN deben tener 16 caracteres. El DLN real tiene 15 caracteres.
- El valor de confianza de employee_id está por debajo del 99 %. El valor de confianza real es de alrededor del 98%.
Los revisores pueden revisar manualmente estos resultados y agregar comentarios RAZÓN PARA EL CAMBIO cajas de texto.
Para obtener más información sobre la integración de Amazon A2I en cualquier flujo de trabajo de aprendizaje automático personalizado, consulte las más de 60 plantillas de trabajadores prediseñadas en el repositorio de GitHub y Uso de Amazon Augmented AI con tipos de tareas personalizadas.
Procesar la salida de Amazon A2I
Después de que el revisor use la interfaz de usuario personalizada de Amazon A2I para revisar el resultado y hacer una selección Enviar, Amazon A2I guarda un archivo JSON en la carpeta del depósito S3. El archivo JSON contiene la siguiente información de nivel raíz:
- El ARN de la definición de flujo de Amazon A2I y el nombre del bucle humano
- Respuestas humanas (la entrada del revisor recopilada por la interfaz de usuario personalizada de Amazon A2I)
- Contenido de entrada (los datos originales enviados a Amazon A2I cuando comenzó la tarea Human Loop)
El siguiente es un ejemplo de JSON generado por Amazon A2I:
Puede implementar la lógica de extracción, transformación y carga (ETL) para analizar la información del JSON de salida de Amazon A2I y almacenarla en un archivo o base de datos. La solución de ejemplo viene con un archivo CSV con datos procesados. Puede usarlo para crear un tablero de BI siguiendo las instrucciones en la siguiente sección.
Cree un tablero en Amazon QuickSight
La solución de ejemplo incluye una etapa de generación de informes con un panel de visualización proporcionado por Amazon QuickSight. El panel de BI muestra métricas clave como la cantidad de documentos procesados de forma automática o manual, los campos más populares que requieren verificación humana y otras perspectivas. Este panel puede ayudarlo a obtener una descripción general de la tubería de procesamiento de documentos y analizar las razones más comunes para la revisión humana. Puede optimizar el flujo de trabajo reduciendo aún más la intervención humana.
El panel de muestra incluye métricas básicas. Puede ampliar la solución con Amazon QuickSight para obtener más información sobre los datos.
Expanda la solución para admitir más documentos y reglas comerciales
Para ampliar la solución para admitir más páginas de documentos con las reglas comerciales correspondientes, debe realizar los siguientes cambios:
- Cree un modelo de datos para la nueva página en estructura JSON que represente todos los valores que desea extraer de las páginas. Referirse a Definir el modelo de datos Sección para un formato detallado.
- Utilice Amazon Textract para extraer texto del documento e insertar valores en el modelo de datos.
- Agregue reglas comerciales adecuadas en formato JSON a la página. Referirse a Personalice las reglas comerciales Apartado formato detallado.
La interfaz de usuario personalizada de Amazon A2I en la solución es genérica y no requiere modificación para admitir nuevas reglas comerciales.
Conclusión
El procesamiento inteligente de documentos tiene una gran demanda y las empresas necesitan una canalización personalizada para respaldar su lógica comercial única. Amazon A2I también proporciona una plantilla integrada que se integra con Amazon Textract para implementar sus casos de uso de verificación humana. Además, puede personalizar la página del revisor para satisfacer necesidades flexibles.
Esta publicación lo guió a través de una solución de referencia que utiliza Amazon Textract y Amazon A2I para crear una canalización de IDP que admita reglas comerciales flexibles. Puede probarlo con el cuaderno Jupyter en el repositorio de GitHub IDP Workshop.
Sobre los autores
lana zhang es Sr. Solutions Architect en el equipo de servicios de IA de AWS WWSO con experiencia en IA y ML para el procesamiento inteligente de documentos y la moderación de contenido. Le apasiona promover los servicios de IA de AWS y ayudar a los clientes a transformar sus soluciones empresariales.
sonali sahu Lidera el equipo de Arquitectos de Soluciones de AI/ML de Procesamiento Inteligente de Documentos en Amazon Web Services. Le apasiona la tecnología y disfruta trabajar con clientes para resolver problemas complejos a través de la innovación. Su enfoque está en la inteligencia artificial y el aprendizaje automático para el procesamiento inteligente de documentos.
[ad_2]