[ad_1]
Amazon Kendra es un servicio de búsqueda inteligente muy preciso y fácil de usar impulsado por aprendizaje automático (ML). Amazon Kendra ofrece una variedad de conectores de fuentes de datos para simplificar el proceso de ingesta e indexación de su contenido, independientemente de dónde resida.
Los datos valiosos de las organizaciones se almacenan en repositorios tanto estructurados como no estructurados. Una solución de búsqueda empresarial debería poder brindarle una experiencia totalmente administrada y simplificar el proceso de indexación de su contenido desde una variedad de fuentes de datos en toda la empresa.
Uno de esos almacenamientos de datos no estructurados son los sitios web internos y externos. Es posible que sea necesario rastrear los sitios web para crear fuentes de noticias, analizar el uso del idioma o crear robots para responder preguntas basadas en los datos del sitio web.
Nos complace anunciar que ahora puede utilizar el nuevo rastreador web Amazon Kendra para buscar respuestas en el contenido almacenado en sitios web internos y externos o para crear chatbots. En esta publicación, le mostraremos cómo indexar información almacenada en sitios web y utilizar la búsqueda inteligente en Amazon Kendra para buscar respuestas en el contenido almacenado en sitios web internos y externos. Además, la búsqueda inteligente basada en ML puede obtener respuestas precisas a sus preguntas a partir de documentos no estructurados con contenido narrativo en lenguaje natural para los cuales la búsqueda de palabras clave no es muy efectiva.
Web Crawler ofrece las siguientes características nuevas:
- Soporte para autenticación básica, NTLM/Kerberos, formularios y SAML
- La capacidad de especificar 100 URL iniciales y almacenar la configuración de la conexión en Amazon Simple Storage Service (Amazon S3).
- Soporte para un proxy web e Internet con la capacidad de proporcionar credenciales de proxy
- Soporte para rastrear contenido dinámico, p. B. un sitio web con JavaScript
- Funciones de mapeo de campos y filtrado de expresiones regulares
Descripción general de la solución
Amazon Kendra le permite configurar múltiples fuentes de datos para proporcionar una ubicación central para buscar en su repositorio de documentos. Para nuestra solución, demostraremos cómo indexar un sitio web rastreado utilizando Amazon Kendra Web Crawler. La solución consta de los siguientes pasos:
- Elija un mecanismo de autenticación para el sitio web (si es necesario) y guarde los detalles en AWS Secrets Manager.
- Cree un índice de Amazon Kendra.
- Cree una fuente de datos de Web Crawler V2 mediante la consola de Amazon Kendra.
- Ejecute una consulta de muestra para probar la solución.
requisitos
Para probar Amazon Kendra Web Crawler, necesitará lo siguiente:
Recopilar detalles de autenticación
Para sitios web protegidos y seguros, se admiten los siguientes tipos y estándares de autenticación:
- básico
- NTLM/Kerberos
- Autenticación de formularios
- SAML
Necesitará la información de autenticación cuando configure la fuente de datos.
Para la autenticación básica o NTLM, debe proporcionar su secreto, nombre de usuario y contraseña de Secrets Manager.
Los formularios y la autenticación SAML requieren información adicional, como se muestra en la siguiente captura de pantalla. Algunas de las áreas como usuario Botón de nombre XPath son opcionales y dependen de si el sitio web que está rastreando utiliza un botón después de ingresar el nombre de usuario. También tenga en cuenta que necesita saber cómo determinar el XPath de los campos de nombre de usuario y contraseña y de los botones de envío.
Crear un índice de Amazon Kendra
Para crear un índice de Amazon Kendra, siga estos pasos:
- En la consola de Amazon Kendra, seleccione Crear un índice.
- Para Nombre del índiceIntroduzca un nombre para el índice (por ejemplo, Web Crawler).
- Opcionalmente, ingrese una descripción.
- Para Nombre de rolIntroduzca un nombre de función de IAM.
- Configure etiquetas y ajustes de cifrado opcionales.
- Elegir Próximo.
- En el Configurar el control de acceso de usuarios En la sección “Configuración”, deje la configuración predeterminada y seleccione “ Próximo.
- Para Ediciones de implementaciónelegir Edición para desarrolladores y elige Próximo.
- Elija en la página de revisión Crear.
Esto crea y propaga la función de IAM y luego crea el índice de Amazon Kendra, lo que puede tardar hasta 30 minutos.
Cree una fuente de datos del rastreador web Amazon Kendra
Complete los siguientes pasos para crear su fuente de datos:
- En la consola de Amazon Kendra, seleccione Fuentes de datos en el área de navegación.
- Encuéntralos Conector WebCrawler V2.0 Mosaico y elige Agregar conector.
- Para Nombre de fuente de datosIngrese un nombre (por ejemplo, crawl-fda).
- Opcionalmente, ingrese una descripción.
- Elegir Próximo.
- En el fuente Seleccionar sección URL de origen e ingrese una URL. Para esta publicación, utilizamos https://www.fda.gov/ como URL de origen de ejemplo.
- En el Autenticación En la sección, seleccione la autenticación adecuada según el sitio web que desea rastrear. Para este post seleccionamos Sin autenticacion porque es un sitio web público y no se requiere autenticación.
- En el proxy web La sección le permite especificar un secreto de Secrets Manager (si es necesario).
- Elegir Crear y agregar un nuevo secreto.
- Ingrese las credenciales de autenticación que recopiló anteriormente.
- Elegir Ahorrar.
- En el Rol de IAM Sección, elija Crear un nuevo rol e introduzca un nombre (p. ej.
AmazonKendra-Web Crawler-datasource-role
). - Elegir Próximo.
- En el Área de sincronización En la sección, configure sus ajustes de sincronización según el sitio web que está rastreando. Para esta publicación, dejaremos todas las configuraciones predeterminadas.
- Para Modo de sincronizaciónElija cómo desea actualizar su índice. Para este post seleccionamos Sincronización completa.
- Para Sincronizar el plan de ejecuciónelegir Ejecutar bajo demanda.
- Elegir Próximo.
- Opcionalmente, puede configurar asignaciones de campos. Para esta publicación, mantendremos la configuración predeterminada por ahora.
El mapeo de campos es un ejercicio útil que le permite reemplazar nombres de campos con valores que sean fáciles de usar y se ajusten al vocabulario de su organización.
- Elegir Próximo.
- Elegir Agregar fuente de datos.
- Para sincronizar la fuente de datos, seleccione Sincronizar ahora en la página de detalles de la fuente de datos.
- Espere a que se complete la sincronización.
Ejemplo de un sitio web autenticado
Si desea rastrear un sitio que tiene autenticación, en el Autenticación En los pasos anteriores debe proporcionar los detalles de autenticación. El siguiente es un ejemplo si seleccionó Autenticación de formularios.
- En el fuente Seleccionar sección URL de origen e ingrese una URL. Para este ejemplo usaremos https://accounts.autodesk.com.
- En el Autenticación Seleccionar sección Autenticación de formularios.
- En el proxy web En la sección, especifique su secreto de Secrets Manager. Esto es necesario para todas las demás opciones. Sin autenticacion.
- Elegir Crear y agregar un nuevo secreto.
- Ingrese las credenciales de autenticación que recopiló anteriormente.
- Elegir Ahorrar.
Prueba la solución
Ahora que ha incluido el contenido del sitio en su índice de Amazon Kendra, puede probar algunas consultas.
- Vaya a su índice y seleccione Buscar contenido indexado.
- Ingrese una consulta de búsqueda de muestra y pruebe los resultados de su búsqueda (su consulta de búsqueda variará según el contenido del sitio web que rastreó y la consulta de búsqueda que ingresó).
¡Felicidades! Ha utilizado con éxito Amazon Kendra para mostrar respuestas e información basada en el contenido indexado en el sitio web que rastreó.
Limpiar
Para evitar costos futuros, limpie los recursos que creó como parte de esta solución. Si creó un nuevo índice de Amazon Kendra mientras probaba esta solución, elimínelo. Si solo agregó una nueva fuente de datos utilizando Amazon Kendra Web Crawler V2, elimine esa fuente de datos.
Diploma
Con el nuevo Amazon Kendra Web Crawler V2, las empresas pueden rastrear cualquier sitio web que sea público o requiera autenticación y utilizarlo para búsquedas inteligentes mediante Amazon Kendra.
Para obtener más información sobre estas opciones y más, consulte la Guía para desarrolladores de Amazon Kendra. Para obtener más información sobre cómo crear, modificar o eliminar metadatos y contenido a medida que recopila sus datos, consulte Enriquezca sus documentos a medida que recopila y enriquezca su contenido y metadatos para mejorar su experiencia de búsqueda con enriquecimiento de documentos personalizado en Amazon Kendra.
Sobre los autores
Jiten Dedhia es un arquitecto de soluciones senior con más de 20 años de experiencia en la industria del software. Ha trabajado con clientes de servicios financieros globales, aconsejándolos sobre cómo modernizarse utilizando los servicios proporcionados por AWS.
Gunwant Walbe es ingeniero de desarrollo de software en Amazon Web Services. Es un estudiante entusiasta e interesado en adoptar nuevas tecnologías. Desarrolla aplicaciones empresariales complejas y Java es su lenguaje preferido.
[ad_2]