[ad_1]
Amazon Textract es un servicio de aprendizaje automático (ML) que permite la extracción automática de texto, escritura a mano y datos de documentos escaneados, superando el reconocimiento óptico de caracteres (OCR) tradicional. Puede identificar, comprender y extraer datos de tablas y formularios con notable precisión. Actualmente, varias empresas confían en métodos de extracción manual o software OCR simple, lo cual es tedioso, requiere mucho tiempo y requiere una configuración manual que debe actualizarse cuando cambia el formulario. Amazon Textract ayuda a resolver estos desafíos aprovechando el aprendizaje automático para procesar automáticamente varios tipos de documentos y extraer información con precisión con una mínima intervención manual. Esto le permite automatizar el procesamiento de documentos y utilizar los datos extraídos para diversos fines, como automatizar el procesamiento de préstamos o recopilar información de facturas y recibos.
A medida que los viajes se reanudan después de la pandemia, en muchos casos puede ser necesario verificar el estado de vacunación del viajero. Los hoteles y agencias de viajes a menudo necesitan consultar los certificados de vacunación para obtener información importante, como por ejemplo: B. si el viajero está completamente vacunado, fechas de vacunación y nombre del viajero. Algunas agencias hacen esto revisando manualmente las tarjetas, lo que puede llevar mucho tiempo al personal y deja lugar a errores humanos. Otros han desarrollado soluciones a medida, pero pueden ser costosas, difíciles de escalar y llevar mucho tiempo implementar. En el futuro, puede haber formas de agilizar el proceso de verificación del estado de vacunación para que sea eficiente para las empresas y al mismo tiempo respete la privacidad y la comodidad de los viajeros.
Amazon Textract Queries ayuda a abordar estos desafíos. Amazon Textract Queries le permite especificar y extraer solo la información que necesita del documento. Le proporciona información precisa y exacta del documento.
En esta publicación, lo guiaremos a través de una guía de implementación paso a paso para crear una solución de verificación del estado de vacunación mediante consultas de Amazon Textract. La solución muestra cómo procesar registros de vacunación mediante una consulta de Amazon Textract, verificar el estado de vacunación y almacenar la información para uso futuro.
Descripción general de la solución
El siguiente diagrama ilustra la arquitectura de la solución.
El flujo de trabajo incluye los siguientes pasos:
- El usuario fotografía un certificado de vacunación.
- La imagen se carga en un depósito de Amazon Simple Storage Service (Amazon S3).
- Cuando la imagen se guarda en el depósito de S3, invoca un flujo de trabajo de AWS Step Functions:
- La función Queries-Decider de AWS Lambda examina el documento pasado y agrega información sobre el tipo MIME, el número de páginas y el número de consultas al flujo de trabajo de Step Functions (en nuestro ejemplo tenemos cuatro consultas).
NumberQueriesAndPagesChoice
es un estado de selección que agrega lógica condicional a un flujo de trabajo. Si hay entre 15 y 31 consultas y el número de páginas está entre 2 y 3001, el procesamiento asincrónico de Amazon Textract es la única opción porque las API sincrónicas solo admiten hasta 15 consultas y documentos de una página. En todos los demás casos, procedemos a una selección aleatoria de procesamiento sincrónico o asincrónico.- El
TextractSync
La función Lambda envía una solicitud a Amazon Textract para analizar el documento en función de las siguientes consultas de Amazon Textract:- ¿Cuál es el estado de vacunación?
- ¿Qué es nombre?
- ¿Cuál es la fecha de nacimiento?
- ¿Cuál es el número de documento?
- Amazon Textract analiza la imagen y envía las respuestas a estas consultas a la función Lambda.
- La función Lambda verifica el estado de vacunación del cliente y guarda el resultado final en formato CSV en el mismo depósito S3 (
demoqueries-textractxxx
) en elcsv-output
Carpeta.
requisitos
Para completar esta solución, debe tener una cuenta de AWS y los permisos adecuados para crear los recursos necesarios como parte de la solución.
Descargue el código de implementación y la tarjeta de vacunación de muestra de GitHub.
Utilice la funcionalidad de consulta en la consola de Amazon Textract
Antes de crear la solución de verificación de vacunación, exploremos cómo puede utilizar las consultas de Amazon Textract para extraer el estado de vacunación a través de la consola de Amazon Textract. Puede utilizar el ejemplo de certificado de vacunación que descargó del repositorio de GitHub.
- En la consola de Amazon Textract, seleccione Analizar documento en el área de navegación.
- Bajo Subir documentoelegir Seleccionar documento para cargar la tarjeta de vacunación desde su unidad local.
- Después de cargar el documento, seleccione Interrogar en el Configurar documento Sección.
- Luego puede agregar consultas en forma de preguntas en lenguaje natural. Agreguemos lo siguiente:
- ¿Cuál es el estado de vacunación?
- ¿Qué es nombre?
- ¿Cuál es la fecha de nacimiento?
- ¿Cuál es el número de documento?
- Después de agregar todas sus consultas, seleccione Aplicar configuración.
- Consulta las consultas Haga clic en la pestaña para ver las respuestas a las preguntas.
Puede ver que Amazon Textract extrae la respuesta a su consulta del documento.
Implementar la solución de verificación de vacunación
En esta publicación, usaremos una instancia de AWS Cloud9 e instalaremos las dependencias necesarias en la instancia utilizando el kit de desarrollo de la nube de AWS (AWS CDK) y Docker. AWS Cloud9 es un entorno de desarrollo integrado (IDE) basado en la nube que le permite escribir, ejecutar y depurar su código usando solo un navegador.
- Seleccionar en la terminal Subir archivos locales sobre el archivo Menú.
- Elegir Seleccione la carpeta y seleccione el
vaccination_verification_solution
Carpeta que descargaste de GitHub. - En la terminal, prepare su aplicación sin servidor para los pasos posteriores de su flujo de trabajo de desarrollo en el modelo de aplicación sin servidor de AWS (AWS SAM) mediante el siguiente comando:
- Implementar la aplicación usando
cdk deploy
Dominio:Espere a que AWS CDK implemente el modelo y cree los recursos mencionados en la plantilla.
- Cuando se complete la implementación, puede revisar los recursos implementados en la consola de AWS CloudFormation. recursos Pestaña de la página de detalles de la pila.
Prueba la solución
Ahora es el momento de probar la solución. Para activar el uso del flujo de trabajo aws s3 cp
para subirlo vac_card.jpg
archivo DemoQueries.DocumentUploadLocation
en la carpeta de documentos:
El archivo del certificado de vacunación se carga automáticamente en el depósito S3 demoqueries-textractxxx
en la carpeta de carga.
El flujo de trabajo de Step Functions se activa a través de una función Lambda tan pronto como el archivo del certificado de vacunación se carga en el depósito S3.
La función Queries-Decider Lambda examina el documento y agrega información sobre el tipo MIME, el número de páginas y el número de consultas al flujo de trabajo de Step Functions (en este ejemplo utilizamos cuatro consultas: número de documento, nombre del cliente y fecha de). estado de nacimiento y vacunación).
El TextractSync
La función envía las consultas de entrada a Amazon Textract y devuelve sincrónicamente el resultado completo como parte de la respuesta. Admite documentos de una sola página (TIFF, PDF, JPG, PNG) y hasta 15 consultas. El GenerateCsvTask
La función toma la salida JSON de Amazon Textract y la convierte en un archivo CSV.
El resultado final se guarda en el mismo depósito S3 en la carpeta csv-output como un archivo CSV.
Puede descargar el archivo a su computadora local usando el siguiente comando:
El formato del resultado es timestamp
, classification
, filename
, page number
, key name
, key_confidence
, value
, value_confidence
, key_bb_top
, key_bb_height
, key_bb.width
, key_bb_left
, value_bb_top
, value_bb_height
, value_bb_width
, value_bb_left
.
Puede escalar la solución a cientos de documentos de certificados de vacunación para múltiples clientes cargando sus certificados de vacunación en DemoQueries.DocumentUploadLocation
. Esto activa automáticamente múltiples ejecuciones de la máquina de estado de Step Functions y guarda el resultado final en el mismo depósito S3 en la carpeta csv-output.
Para cambiar el conjunto inicial de consultas ingresadas en Amazon Textract, puede ir a su instancia de AWS Cloud9 y abrir el archivo start_execution.py. En la vista de archivos, navegue hasta Lambda en el panel izquierdo, start_queries
, app
, start_execution.py
. Esta función Lambda se llama cuando se carga un archivo DemoQueries.DocumentUploadLocation
. Las consultas enviadas al flujo de trabajo se definen en start_execution.py
; Puede cambiarlos actualizando el código como se muestra en la captura de pantalla a continuación.
Limpiar
Para evitar costos continuos, elimine los recursos creados en esta publicación usando el siguiente comando:
Responde la pregunta Are you sure you want to delete: DemoQueries (y/n)?
con y.
Diploma
En esta publicación, le mostramos cómo utilizar Amazon Textract Queries para crear una solución de verificación de vacunación para la industria de viajes. Puede utilizar Amazon Textract Queries para crear soluciones en otras industrias, como finanzas y atención médica, y recuperar información de documentos como recibos de pago, notas hipotecarias y tarjetas de seguro basándose en preguntas en lenguaje natural.
Para obtener más información, consulte Análisis de documentos o consulte la consola de Amazon Textract y pruebe esta función.
Sobre los autores
Dhiraj Thakur es arquitecto de soluciones en Amazon Web Services. Trabaja con clientes y socios de AWS para brindarles asesoramiento sobre la adopción, migración y estrategia de la nube empresarial. Le apasiona la tecnología y le gusta construir y experimentar en las áreas de análisis e IA/ML.
Rishabh Yadav es un arquitecto de soluciones asociado en AWS con amplia experiencia en DevOps y ofertas de seguridad en AWS. Trabaja con socios de la ASEAN para brindar orientación sobre la adopción de la nube empresarial y revisiones de arquitectura y desarrollar prácticas de AWS mediante la implementación del marco de buena arquitectura. Fuera del trabajo, le gusta dedicar su tiempo a los deportes y los juegos FPS.
[ad_2]