[ad_1]
Nos complace anunciar la compatibilidad con los puntos de acceso Amazon S3 para Amazon SageMaker Data Wrangler. Con su interfaz visual de apuntar y hacer clic, SageMaker Data Wrangler simplifica la preparación de datos y el proceso de desarrollo de funciones, incluida la selección, limpieza, exploración y visualización de datos, mientras que los puntos de acceso S3 simplifican el acceso a los datos al proporcionar nombres de host únicos con políticas de acceso específicas.
A partir de hoy, SageMaker Data Wrangler facilita a los usuarios la preparación de datos a partir de conjuntos de datos compartidos almacenados en Amazon Simple Storage Service (Amazon S3), al tiempo que permite a las organizaciones controlar de forma segura el acceso a los datos en toda su organización. Con los puntos de acceso de S3, los administradores de datos ahora pueden crear puntos de acceso específicos para aplicaciones y equipos para facilitar el intercambio de datos, en lugar de administrar políticas complejas de depósitos con muchas reglas de permisos diferentes.
En esta publicación, lo guiaremos a través de la importación y exportación de datos a un punto de acceso S3 en SageMaker Data Wrangler.
descripción general de la solución
Imagine que, como administrador, necesita gestionar datos para varios equipos de ciencia de datos que ejecutan sus propios flujos de trabajo de preparación de datos en SageMaker Data Wrangler. Los administradores suelen enfrentar tres desafíos:
- Los equipos de ciencia de datos deben poder acceder a sus conjuntos de datos sin comprometer la seguridad de los demás.
- Los equipos de ciencia de datos necesitan acceso a algunos conjuntos de datos confidenciales, lo que dificulta aún más la gestión de permisos.
- La política de seguridad permite el acceso a los datos solo a través de puntos finales específicos para evitar el acceso no autorizado y reducir la divulgación de datos.
Sería difícil establecer un acceso granular con las políticas de depósito tradicionales porque las políticas de depósito aplican los mismos permisos a todos los objetos dentro del depósito. Incluso las políticas de depósitos tradicionales no pueden respaldar el acceso seguro a nivel de punto final.
S3 Access Points resuelve estos problemas al permitir un control de acceso detallado a nivel granular, lo que facilita la administración de permisos para diferentes equipos sin afectar otras partes del depósito. En lugar de cambiar una única política de depósito, puede crear múltiples puntos de acceso con políticas individuales adaptadas a casos de uso específicos, lo que reduce el riesgo de una mala configuración o el acceso involuntario a datos confidenciales. Por último, puede aplicar políticas de punto final de punto de acceso para definir reglas que controlen qué VPC o direcciones IP pueden acceder a los datos a través de un punto de acceso determinado.
Demostramos el uso de puntos de acceso S3 con SageMaker Data Wrangler con los siguientes pasos:
- Cargue datos en un depósito S3.
- Cree un punto de acceso S3.
- Configure su rol de AWS Identity and Access Management (IAM) con las políticas requeridas.
- Cree un flujo de SageMaker Data Wrangler.
- Exporte datos de SageMaker Data Wrangler al punto de acceso.
Para esta publicación, utilizamos el conjunto de datos de marketing bancario como datos de muestra. Sin embargo, puede utilizar cualquier otro conjunto de datos que desee.
requisitos
Para este tutorial, debe cumplir los siguientes requisitos previos:
Cargar datos a un depósito S3
Cargue sus datos en un depósito S3. Consulte Carga de objetos para obtener instrucciones. Para esta publicación utilizamos el conjunto de datos de marketing bancario.
Crear un punto de acceso S3
Siga los pasos a continuación para crear un punto de acceso S3. Consulte Creación de puntos de acceso para obtener más información.
- En la consola de Amazon S3, seleccione puntos de acceso en el área de navegación.
- Elegir Crear punto de acceso.
- Para Nombre del punto de accesoIngrese un nombre para su punto de acceso.
- Para Baldeelegir Seleccione un depósito en esta cuenta.
- Para nombre del cuboe, ingrese el nombre del depósito que creó.
- Deje el resto de la configuración por defecto y seleccione Crear punto de acceso.
En la página Detalles del punto de acceso, anote el nombre del recurso de Amazon (ARN) y el alias del punto de acceso. Los usará más adelante cuando interactúe con el punto de acceso en SageMaker Data Wrangler.
Configure su rol de IAM
Si tiene un dominio de SageMaker Studio, siga estos pasos para editar la función de ejecución:
- En la consola de SageMaker, seleccione dominios en el área de navegación.
- Elige tu dominio.
- Sobre el configuración de dominio pestaña, seleccione Editar.
De forma predeterminada, es la función de IAM que utiliza para acceder a Data Wrangler. SageMakerExecutionRole
. Necesitamos agregar las siguientes dos políticas para usar los puntos de acceso S3:
- Política 1 – Esta política de IAM otorga acceso a SageMaker Data Wrangler para ejecutarse
PutObject
,GetObject
YDeleteObject
:
- Política 2 – Esta política de IAM otorga acceso a SageMaker Data Wrangler para obtener el punto de acceso S3:
- Cree estas dos políticas y agréguelas al rol.
Uso de puntos de acceso S3 en SageMaker Data Wrangler
Para crear un nuevo flujo de SageMaker Data Wrangler, complete los siguientes pasos:
- Inicie SageMaker Studio.
- Sobre el archivo menú, elija Nuevo Y Flujo de control de datos.
- Elija Amazon S3 como fuente de datos.
- Para la fuente S3, ingrese el punto de acceso S3 usando el ARN o alias que anotó anteriormente.
Para esta publicación, utilizamos el ARN para importar datos a través del punto de acceso S3. Sin embargo, el ARN solo funciona para puntos de acceso S3 y dominios de SageMaker Studio dentro de la misma región.
Alternativamente, puede utilizar el alias como se muestra en la captura de pantalla siguiente. A diferencia de los ARN, se puede hacer referencia a los alias entre regiones.
Exporte datos de SageMaker Data Wrangler a puntos de acceso S3
Después de completar las transformaciones necesarias, podemos exportar los resultados al punto de acceso S3. En nuestro caso simplemente eliminamos una columna. Cuando haya completado todas las transformaciones necesarias para su caso de uso, complete los siguientes pasos:
- En el flujo de datos, seleccione el signo más.
- Seleccione Agregar destino y Amazon S3.
- Ingrese el nombre del registro y la ubicación de S3, haciendo referencia al ARN.
Ahora ha utilizado puntos de acceso S3 para importar y exportar datos de forma segura y eficiente sin tener que administrar políticas de depósitos complejas ni navegar por múltiples estructuras de carpetas.
Limpiar
Si creó un nuevo dominio de SageMaker, asegúrese de detener todas las aplicaciones en ejecución y eliminar su dominio para evitar que se le cobre. Elimine también todos los puntos de acceso de S3 y todos los depósitos de S3.
Diploma
En esta publicación, presentamos la disponibilidad de los puntos de acceso S3 para SageMaker Data Wrangler y cómo puede usar esta función para simplificar la gestión de datos en SageMaker Studio. Accedimos al conjunto de datos a través de un alias de punto de acceso S3 para todas las cuentas de AWS y almacenamos las transformaciones resultantes allí. Esperamos que utilice esta función para eliminar los obstáculos de acceso a datos para sus usuarios de SageMaker Studio y le animamos a que la pruebe.
Sobre los autores
Peter Chung es un arquitecto de soluciones que presta servicios a clientes empresariales en AWS. Le encanta ayudar a los clientes a utilizar la tecnología para resolver problemas comerciales en diversos temas, como la reducción de costos y el aprovechamiento de la inteligencia artificial. Ha escrito un libro sobre AWS FinOps y le gusta leer y desarrollar soluciones.
Neelam Koshiya es arquitecto de soluciones empresariales en AWS. Su enfoque actual es ayudar a los clientes empresariales a adoptar la nube para lograr resultados comerciales estratégicos. En su tiempo libre le gusta leer y estar al aire libre.
[ad_2]