[ad_1]
La preparación de datos es un paso crucial en cualquier flujo de trabajo de aprendizaje automático (ML), pero a menudo implica tareas tediosas y que requieren mucho tiempo. Amazon SageMaker Canvas ahora admite capacidades integrales de preparación de datos impulsadas por Amazon SageMaker Data Wrangler. Con esta integración, SageMaker Canvas ofrece a los clientes un espacio de trabajo sin código de extremo a extremo para preparar datos, crear y utilizar modelos ML y Foundation para reducir el tiempo desde los datos hasta la información empresarial. Ahora puede descubrir y agregar fácilmente datos de más de 50 fuentes de datos, así como explorar y preparar datos utilizando más de 300 análisis y transformaciones integrados en la interfaz visual de SageMaker Canvas. También notará un rendimiento más rápido para transformaciones y análisis, así como una interfaz de lenguaje natural para explorar y transformar datos para ML.
En esta publicación, lo guiaremos a través del proceso de preparación de datos para la creación de modelos de un extremo a otro en SageMaker Canvas.
Descripción general de la solución
Para nuestro caso de uso, asumimos el papel de un profesional de datos en una empresa de servicios financieros. Utilizamos dos conjuntos de datos de muestra para construir un modelo de ML que predice si el prestatario reembolsará un préstamo en su totalidad, lo cual es fundamental para gestionar el riesgo crediticio. El entorno sin código de SageMaker Canvas nos permite preparar rápidamente los datos, desarrollar funciones, entrenar un modelo de ML e implementar el modelo en un flujo de trabajo de un extremo a otro sin necesidad de codificación.
requisitos
Para seguir este tutorial, asegúrese de haber implementado los requisitos previos como se describe en
- Inicie el lienzo de Amazon SageMaker. Si ya es usuario de SageMaker Canvas, asegúrese de cerrar sesión y volver a iniciarla para aprovechar esta nueva función.
- Para importar datos de Snowflake, siga los pasos en Configurar OAuth para Snowflake.
Preparar datos interactivos
Una vez completada la configuración, ahora podemos crear un flujo de datos para permitir la preparación interactiva de datos. El flujo de datos proporciona transformaciones integradas y visualizaciones en tiempo real para procesar los datos. Complete los siguientes pasos:
- Cree un nuevo flujo de datos utilizando uno de los siguientes métodos:
- Elegir Controlador de datos, Flujos de datosentonces escoge Crear.
- Seleccione el conjunto de datos de SageMaker Canvas y elija Crear un flujo de datos.
- Elegir Datos de importacion y seleccione Tabular de la lista desplegable.
- Puede importar datos directamente a través de más de 50 conectores de datos, como Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift, Snowflake y Salesforce. En este tutorial, cubriremos la importación de sus datos directamente desde Snowflake.
Alternativamente, puede cargar el mismo conjunto de datos desde su computadora local. Puede descargar los conjuntos de datos “loan-part-1.csv” y “loan-part-2.csv”.
- En la página Importar datos, seleccione Snowflake de la lista y seleccione Agregar conexión.
- Introduzca un nombre para la conexión y seleccione OAuth Opción de la lista desplegable del método de autenticación. Ingrese su ID de cuenta Okta y seleccione Agregar conexión.
- Serás redirigido a la pantalla de inicio de sesión de Okta donde podrás ingresar tus credenciales de Okta para la autenticación. Si la autenticación es exitosa, será redirigido a la página de flujo de datos.
- Busque el registro de crédito en la base de datos de Snowflake
Seleccione los dos registros de préstamos arrastrándolos y soltándolos desde el lado izquierdo de la pantalla hacia la derecha. Los dos registros están conectados y aparece un icono de conexión con un signo de exclamación rojo. Haga clic en él y luego selecciónelo para ambos registros. IDENTIFICACIÓN Llave. Mantener el tipo de unión Interno. Debe tener un aspecto como este:
- Elegir Guardar y cerrar.
- Elegir Crear conjunto de datos. Asigne un nombre al conjunto de datos.
- Navegue hasta el flujo de datos. Esto es lo que ves.
- Para buscar rápidamente información sobre préstamos, seleccione Obtenga información valiosa sobre los datos y seleccione el
loan_status
Columna de destino y clasificación Tipo de problema.
que generó Informe de información y calidad de los datos Proporciona estadísticas clave, visualizaciones y análisis de importancia de características.
- Lea las advertencias sobre problemas de calidad de los datos y clases desequilibradas para comprender y mejorar el conjunto de datos.
Para el conjunto de datos en este caso de uso, debe esperar una advertencia de «Puntuación de modelo rápido muy baja» con alta prioridad y muy baja efectividad del modelo en clases minoritarias (desechadas y actuales), lo que indica que los datos deben limpiarse y equilibrarse. Para obtener más información sobre el informe Data Insights, consulte la documentación de Canvas.
Con más de 300 transformaciones integradas impulsadas por SageMaker Data Wrangler, SageMaker Canvas le permite manipular rápidamente los datos crediticios. Puedes hacer clic en Agregar pasoy explore o busque las transformaciones correctas. Usar para este registro falta la gota Y Manejar valores atípicos Limpiar datos y luego aplicar codificación one-hot, Y Vectorizar texto para crear funciones para ML.
Chat de preparación de datos es una nueva característica de lenguaje natural que permite el análisis de datos intuitivo al describir consultas en inglés sencillo. Por ejemplo, puede utilizar frases naturales para obtener estadísticas y realizar análisis de correlación de los datos crediticios. SageMaker Canvas comprende y ejecuta las acciones a través de interacciones conversacionales, llevando la preparación de datos al siguiente nivel.
Nosotros podemos usar Chat de preparación de datos y transformación integrada para equilibrar los datos crediticios.
- Primero, ingrese las siguientes instrucciones:
replace “charged off” and “current” in loan_status with “default”
Chat de preparación de datos genera código para fusionar dos clases minoritarias en una default
Clase.
- Elige el modelo integrado HERIDO Función de transformación para generar datos sintéticos para la clase estándar.
Ahora tiene una columna objetivo equilibrada.
- Después de limpiar y procesar los datos del préstamo, regenerarlos Informe de información y calidad de los datos comprobar mejoras.
La advertencia de alta prioridad ha desaparecido, lo que indica una mejor calidad de los datos. Puede agregar transformaciones adicionales según sea necesario para mejorar la calidad de los datos para el entrenamiento de modelos.
Escalar y automatizar el procesamiento de datos
Para automatizar la preparación de datos, puede ejecutar o programar todo el flujo de trabajo como un trabajo de procesamiento distribuido de Spark para procesar todo el conjunto de datos o todos los conjuntos de datos nuevos a escala.
- Agregue un nodo de destino de Amazon S3 dentro del flujo de datos.
- Inicie un trabajo de procesamiento de SageMaker seleccionando crear trabajo.
- Configure el orden de procesamiento y seleccione CrearEsto permite que el flujo se ejecute en cientos de GB de datos sin muestreo.
Los flujos de datos se pueden integrar en canalizaciones MLOps de un extremo a otro para automatizar el ciclo de vida del aprendizaje automático. Los flujos de datos se pueden introducir en los cuadernos de SageMaker Studio como un paso de procesamiento de datos en una canalización de SageMaker o para proporcionar una canalización de inferencia de SageMaker. Esto permite la automatización del proceso desde la preparación de datos hasta la capacitación y el alojamiento de SageMaker.
Construya el modelo e impleméntelo en SageMaker Canvas
Después de la preparación de los datos, podemos exportar sin problemas el conjunto de datos final a SageMaker Canvas para crear, entrenar e implementar un modelo de predicción de pagos de préstamos.
- Elegir Crear modelo en el último nodo del flujo de datos o en el área de nodos.
Esto exporta el conjunto de datos e inicia el flujo de trabajo de creación guiada del modelo.
- Asigne un nombre al conjunto de datos exportados y seleccione exportar.
- Elegir Crear modelo de la notificación.
- Nombra el modelo y selecciónalo. Análisis predictivoy elige Crear.
Esto lo redirigirá a la página de creación de modelos.
- Continúe con la creación del modelo de SageMaker Canvas seleccionando la columna de destino y el tipo de modelo y luego seleccionando Configuración rápida o Estructura estándar.
Para obtener más información sobre la creación de un modelo, consulte Creación de un modelo.
Cuando se completa el entrenamiento, puede utilizar el modelo para predecir o proporcionar nuevos datos. Para obtener más información sobre la implementación de un modelo desde SageMaker Canvas, consulte Implementación de modelos de aprendizaje automático creados en Amazon SageMaker Canvas en puntos finales en tiempo real de Amazon SageMaker.
Diploma
En esta publicación, demostramos las capacidades de un extremo a otro de SageMaker Canvas al asumir el papel de un experto en datos financieros que prepara datos para predecir los pagos de préstamos, con tecnología de SageMaker Data Wrangler. La preparación interactiva de datos permitió una rápida limpieza, transformación y análisis de datos crediticios para desarrollar funciones informativas. Al eliminar la complejidad de la programación, SageMaker Canvas nos permitió iterar rápidamente para crear un conjunto de datos de entrenamiento de alta calidad. Este flujo de trabajo acelerado conduce directamente a la creación, capacitación e implementación de un potente modelo de aprendizaje automático con impacto empresarial. Con su preparación integral de datos y su experiencia unificada desde datos hasta conocimientos, SageMaker Canvas le permite mejorar sus resultados de ML. Para obtener más información sobre cómo acelerar su transición de los datos a la información empresarial, consulte el Día de inmersión en SageMaker Canvas y la Guía del usuario de AWS.
Sobre los autores
DR. Changsha Ma es un especialista en IA/ML en AWS. Es tecnóloga con doctorado en informática, maestría en psicología educativa y años de experiencia en ciencia de datos y consultoría independiente en el campo de AI/ML. Le apasiona investigar enfoques metodológicos sobre la inteligencia humana y de máquinas. Fuera del trabajo, le gusta hacer senderismo, cocinar, buscar comida y pasar tiempo con amigos y familiares.
Ajjay Govindaram es arquitecto senior de soluciones en AWS. Trabaja con clientes estratégicos que utilizan AI/ML para resolver problemas comerciales complejos. Su experiencia radica en brindar orientación técnica y soporte de diseño para implementaciones de aplicaciones de IA/ML de pequeñas y grandes dimensiones. Su conocimiento abarca desde arquitectura de aplicaciones hasta big data, análisis y aprendizaje automático. Le gusta escuchar música mientras descansa, disfrutar de la naturaleza y pasar tiempo con sus seres queridos.
Huong Nguyen es gerente senior de productos en AWS. Dirige la preparación de datos de aprendizaje automático para SageMaker Canvas y SageMaker Data Wrangler y tiene 15 años de experiencia en el desarrollo de productos centrados en el cliente y basados en datos.
[ad_2]