[ad_1]
Encontrar información en un depósito de documentos de texto libre puede ser como buscar una aguja en un pajar. Un enfoque tradicional podría ser contar palabras o utilizar otros análisis básicos para analizar documentos, pero con el poder de la IA de Amazon y las herramientas de aprendizaje automático (ML), podemos obtener una comprensión más profunda del contenido.
Amazon Comprehend es un servicio totalmente administrado que utiliza el procesamiento del lenguaje natural (NLP) para obtener información sobre el contenido de los documentos. Amazon Comprehend desarrolla conocimientos reconociendo entidades, frases clave, opiniones, temas y elementos personalizados en un documento. Amazon Comprehend puede generar nuevos conocimientos basados en la comprensión de la estructura de los documentos y las relaciones entre entidades. Por ejemplo, Amazon Comprehend le permite buscar frases clave en un repositorio de documentos completo.
Amazon Comprehend facilita que los expertos que no son expertos en aprendizaje automático completen tareas que normalmente llevan horas. Amazon Comprehend elimina gran parte del tiempo necesario para limpiar, crear y entrenar su propio modelo. Para crear modelos personalizados más profundos en PNL o cualquier otro dominio, Amazon SageMaker le permite crear, entrenar e implementar modelos bajo demanda en un flujo de trabajo de aprendizaje automático mucho más convencional.
En esta publicación, utilizamos Amazon Comprehend y otros servicios de AWS para analizar un repositorio de documentos y extraer nuevos conocimientos de él. Luego utilizamos Amazon QuickSight para crear una nube de palabras visual simple pero poderosa que nos permite identificar fácilmente temas o tendencias.
Descripción general de la solución
El siguiente diagrama ilustra la arquitectura de la solución.
Primero, recopilamos los datos que se analizarán y los cargamos en un depósito de Amazon Simple Storage Service (Amazon S3) en una cuenta de AWS. En este ejemplo utilizamos archivos con formato de texto. Luego, Amazon Comprehend analiza los datos. Amazon Comprehend crea resultados con formato JSON que deben convertirse y procesarse en un formato de base de datos mediante AWS Glue. Revisamos los datos y extraemos tablas de datos formateadas específicas utilizando Amazon Athena para el análisis QuickSight mediante una nube de palabras. Para obtener más información sobre visualizaciones, consulte Visualización de datos en Amazon QuickSight.
requisitos
Para completar este tutorial, debe cumplir con los siguientes requisitos:
Cargar datos a un depósito S3
Cargue sus datos en un depósito S3. Para esta publicación, utilizaremos el texto con formato UTF-8 de la Constitución de los EE. UU. como archivo de entrada. Luego puede analizar los datos y crear visualizaciones.
Analice datos con Amazon Comprehend
Hay muchos tipos de información de texto e imágenes que se pueden procesar con Amazon Comprehend. Además de los archivos de texto, puede utilizar Amazon Comprehend para la clasificación en un solo paso y el reconocimiento de entidades para aceptar archivos de imagen, archivos PDF y archivos de Microsoft Word como entrada, que no se tratan en esta publicación.
Para analizar sus datos, siga estos pasos:
- En la consola de Amazon Comprehend, seleccione Empleos de Análisis en el área de navegación.
- Elegir Crear trabajo de análisis.
- Introduzca un nombre para su trabajo.
- Para Tipo de análisiselegir Frases clave.
- Para Idiomaelegir Inglés.
- Para Ubicación de los datos de entradaComo requisito previo, especifique la carpeta que creó.
- Para Ubicación de los datos de salidaComo requisito previo, especifique la carpeta que creó.
- Elegir Crear un rol de IAM.
- Introduzca un sufijo para el nombre del rol.
- Elegir crear trabajo.
El trabajo se está ejecutando y se muestra el estado. Empleos de Análisis Página.
Espere a que se complete el trabajo de análisis. Amazon Comprehend crea un archivo y lo coloca en la carpeta de datos de salida que especifique. El archivo está en formato .gz o GZIP.
Este archivo debe descargarse y convertirse a un formato no comprimido. Puede utilizar la consola de Amazon S3 para descargar un objeto de la carpeta de datos o del depósito de S3.
- En la consola de Amazon S3, seleccione el objeto y elija Descargar. Si desea descargar el elemento a una carpeta específica, seleccione Descargar sobre el Comportamiento Menú.
- Después de descargar el archivo a su computadora local, abra el archivo ZIP y guárdelo como un archivo sin comprimir.
El archivo sin comprimir debe cargarse en la carpeta de salida antes de que el rastreador de AWS Glue pueda procesarlo. Para este ejemplo, cargaremos el archivo sin comprimir en la misma carpeta de salida que usaremos en pasos posteriores.
- En la consola de Amazon S3, navegue hasta su depósito S3 y seleccione Subir.
- Elegir agregar archivos.
- Seleccione los archivos sin comprimir de su computadora local.
- Elegir Subir.
Después de cargar el archivo, elimine el archivo ZIP original.
- En la consola de Amazon S3, seleccione el depósito y elija Borrar.
- Para eliminar permanentemente el archivo, confirme el nombre del archivo ingresándolo en el cuadro de texto.
- Elegir Eliminar objetos.
Esto deja un archivo en la carpeta de salida: el archivo sin comprimir.
Convierta datos JSON a formato de tabla con AWS Glue
En este paso, preparará la salida de Amazon Comprehend para utilizarla como entrada en Athena. La salida de Amazon Comprehend está en formato JSON. Puede utilizar AWS Glue para convertir JSON en una estructura de base de datos que, en última instancia, será leída por QuickSight.
- En la consola de AWS Glue, seleccione Rastreadores en el área de navegación.
- Elegir Crear rastreadores.
- Ingrese un nombre para su rastreador.
- Elegir Próximo.
- Para ¿Sus datos ya están asignados a tablas de Glue?elegir Aún no.
- Agregue una fuente de datos.
- Para Ruta S3Introduzca la ubicación de la carpeta de datos de salida de Amazon Comprehend.
Asegúrate de agregar el final. /
al nombre de la ruta. AWS Glue busca en la ruta de la carpeta todos los archivos.
- Elegir Rastrear todas las subcarpetas.
- Elegir Agregar una fuente de datos S3.
- Cree un nuevo rol de AWS Identity and Access Management (IAM) para el rastreador.
- Introduzca un nombre para la función de IAM.
- Elegir Actualizar el rol de IAM seleccionado para garantizar que la nueva función esté asignada al rastreador.
- Elegir Próximo para ingresar la información de salida (información de la base de datos).
- Elegir Agregar base de datos.
- Introduzca un nombre de base de datos.
- Elegir Próximo.
- Elegir Crear rastreadores.
- Elegir Ejecutar rastreador para ejecutar el rastreador.
Puede monitorear el estado del rastreador en la consola de AWS Glue.
Utilice Athena para preparar tablas para QuickSight
Athena extrae datos de las tablas de la base de datos que creó el rastreador de AWS Glue para proporcionar un formato que QuickSight utiliza para crear la nube de palabras.
- Seleccione en la consola Athena editor de consultas en el área de navegación.
- Para Fuente de datoselegir AWSDataCatalog.
- Para Base de datosseleccione la base de datos que creó el rastreador.
Para crear una tabla compatible con QuickSight, se deben anidar los datos de las matrices.
- El primer paso es crear una base de datos temporal con los datos relevantes de Amazon Comprehend:
- La siguiente instrucción se limita a frases con al menos tres palabras y las agrupa por frecuencia de frase:
Utilice QuickSight para visualizar el resultado
Finalmente, puede crear el resultado visual del análisis.
- En la consola QuickSight, seleccione Nuevo análisis.
- Elegir nuevo conjunto de datos.
- Para Crear un conjunto de datoselegir De nuevas fuentes de datos.
- Elegir Atenea como fuente de datos.
- Introduzca un nombre para la fuente de datos y seleccione Crear fuente de datos.
- Elegir Visualizar.
Asegúrese de que QuickSight tenga acceso a los depósitos de S3 donde se almacenan las tablas de Athena.
- En la consola QuickSight, seleccione el icono de perfil de usuario y luego seleccione » Administrar QuickSight.
- Elegir Seguridad y permisos.
- Busca la sección Acceso QuickSight a los servicios de AWS.
Configurar el acceso a los servicios de AWS permite a QuickSight acceder a los datos de esos servicios. El acceso de usuarios y grupos se puede controlar a través de las opciones.
- Asegúrese de que se conceda acceso a Amazon S3.
Ahora puedes crear la nube de palabras.
- Seleccione la nube de palabras a continuación Tipos visuales.
- Trazar texto Agrupar por y contar Tamaño.
Seleccione el menú de opciones (tres puntos) en la visualización para acceder a las opciones de edición. Por ejemplo, es posible que desee ocultar el término «Otro» de la pantalla. También puedes editar elementos como el título y el subtítulo de tu imagen. Para descargar la nube de palabras como PDF, seleccione Descargar en la barra de herramientas de QuickSight.
Limpiar
Para evitar costos continuos, elimine los datos, procesos o recursos no utilizados implementados en la consola de servicio correspondiente.
Diploma
Amazon Comprehend utiliza PNL para obtener información sobre el contenido de los documentos. Desarrolla conocimientos reconociendo las entidades, frases clave, lenguaje, sentimientos y otros elementos comunes en un documento. Amazon Comprehend le permite crear nuevos productos basándose en la comprensión de la estructura de los documentos. Por ejemplo, Amazon Comprehend le permite buscar frases clave en un repositorio de documentos completo.
Esta publicación describe los pasos para crear una nube de palabras para visualizar un análisis de contenido de texto de Amazon Comprehend utilizando herramientas de AWS y QuickSight para visualizar los datos.
¡Mantengámonos en contacto a través de la sección de comentarios!
Sobre los autores
Kris Gedman es el gerente de ventas minoristas y CPG del este de EE. UU. para Amazon Web Services. Cuando no está trabajando, le gusta pasar tiempo con sus amigos y familiares, especialmente en el verano en Cape Cod. Kris es un guerrero ninja temporalmente retirado, pero en este momento le encanta observar y entrenar a sus dos hijos.
Clark Le Favor es arquitecto senior de soluciones en Amazon Web Services que brinda soporte a clientes empresariales en la Región Oriental. Clark vive en Nueva Inglaterra y le gusta pasar tiempo creando recetas en la cocina.
[ad_2]