Nuevos algoritmos integrados de Amazon SageMaker para el modelado de datos tabulares: LightGBM, CatBoost, AutoGluon-Tabular y TabTransformer

[ad_1]

Amazon SageMaker proporciona un conjunto de algoritmos integrados, modelos preentrenados y plantillas de soluciones preempaquetadas para facilitar que los científicos de datos y los profesionales del aprendizaje automático (ML) comiencen a entrenar e implementar modelos de ML. Puede utilizar estos algoritmos y modelos para el aprendizaje supervisado y no supervisado. Puede procesar diferentes tipos de datos de entrada, incluidas tablas, imágenes y texto.

A partir de hoy, SageMaker ofrece cuatro nuevos algoritmos integrados de modelado de datos tabulares: LightGBM, CatBoost, AutoGluon-Tabular y TabTransformer. Puede utilizar estos populares algoritmos de última generación para tareas de regresión y clasificación tabular. Están disponibles a través de los algoritmos integrados en SageMaker Console, así como a través de la interfaz de usuario de Amazon SageMaker JumpStart en Amazon SageMaker Studio.

A continuación se muestra una lista de los cuatro nuevos algoritmos integrados con enlaces a su documentación, cuadernos de muestra y fuentes.

En las siguientes secciones, proporcionamos una breve descripción técnica de cada algoritmo y ejemplos de entrenamiento de un modelo a través de SageMaker SDK o SageMaker Jumpstart.

LuzGBM

LightGBM es una implementación popular y eficiente de código abierto del algoritmo Gradient Boosting Decision Tree (GBDT). GBDT es un algoritmo de aprendizaje supervisado que intenta predecir con precisión una variable objetivo mediante la combinación de un conjunto de estimaciones de una variedad de modelos más simples y más débiles. LightGBM utiliza técnicas adicionales para mejorar en gran medida la eficiencia y la escalabilidad del GBDT tradicional.

gatoboost

CatBoost es una implementación popular y potente de código abierto del algoritmo GBDT. Se introducen dos avances algorítmicos importantes en CatBoost: la implementación de Ordered Boosting, una alternativa basada en permutaciones al algoritmo clásico, y un algoritmo innovador para procesar características categóricas. Ambas técnicas se desarrollaron para combatir la deriva de predicción causada por un tipo especial de fuga de objetivo presente en todas las implementaciones existentes actualmente de algoritmos de mejora de gradiente.

Mesa AutoGluon

AutoGluon-Tabular es un proyecto AutoML de código abierto desarrollado y mantenido por Amazon que realiza procesamiento de datos avanzado, aprendizaje profundo y ensamblaje de pilas de varias capas. Detecta automáticamente el tipo de datos en cada columna para un procesamiento previo de datos sólido, incluido el tratamiento especial de los campos de texto. AutoGluon se adapta a varios modelos, desde árboles potenciados listos para usar hasta modelos de redes neuronales personalizados. Estos modelos se ensamblan de una manera novedosa: los modelos se apilan en múltiples capas y se entrenan capa por capa, lo que garantiza que los datos sin procesar se puedan traducir en predicciones de alta calidad dentro de un límite de tiempo determinado. El sobreajuste se mitiga durante este proceso al dividir los datos de diferentes maneras, rastreando cuidadosamente los ejemplos fuera de los pliegues. AutoGluon está optimizado para el rendimiento y su uso inmediato ha obtenido múltiples resultados entre los 3 primeros y los 10 primeros en competencias de ciencia de datos.

Transformador de pestañas

TabTransformer es una nueva arquitectura de modelado de datos tabulares profundos para el aprendizaje supervisado. El TabTransformer se basa en transformadores basados en la autoconciencia. Las capas de Transformador transforman las incrustaciones de características categóricas en incrustaciones contextuales sólidas para lograr una mayor precisión de predicción. Además, las incrustaciones contextuales aprendidas por TabTransformer son muy sólidas contra las características de datos ruidosos y faltantes y ofrecen una mejor interpretabilidad. Este modelo es el producto de una investigación reciente de Amazon Science (artículo y publicación de blog oficial aquí) y ha sido ampliamente adoptado por la comunidad de ML, con varias implementaciones de terceros (Keras, AutoGluon) y funciones de redes sociales como: tweetshacia Datascience, Medium y Kaggle.

Beneficios de los algoritmos integrados en SageMaker

Al elegir un algoritmo para su tipo específico de problema y datos, usar un algoritmo integrado en SageMaker es la opción más fácil, ya que ofrece los siguientes beneficios clave:

Los algoritmos incorporados no requieren programación para comenzar a ejecutar experimentos. Las únicas entradas que debe proporcionar son los datos, los hiperparámetros y los recursos computacionales. Esto le permite ejecutar experimentos más rápido, con menos gastos generales para el seguimiento de los resultados y los cambios de código.
Los algoritmos incorporados vienen con paralelización en múltiples instancias de cómputo y soporte de GPU para todos los algoritmos aplicables (es posible que algunos algoritmos no se incluyan debido a limitaciones inherentes). Si tiene muchos datos para entrenar su modelo, la mayoría de los algoritmos integrados se pueden escalar fácilmente para satisfacer la demanda. Incluso si ya tiene un modelo preentrenado, aún puede ser más fácil usar su secuencia en SageMaker e ingresar los hiperparámetros que ya conoce, en lugar de migrarlo y escribir un script de entrenamiento usted mismo.
Usted es el propietario de los artefactos del modelo resultante. Puede tomar este modelo e implementarlo en SageMaker para varios patrones de inferencia diferentes (vea todos los tipos de implementación disponibles) y fácil escalado y administración de terminales, o puede implementarlo donde lo necesite.

Ahora veamos cómo entrenar uno de estos algoritmos incorporados.

Entrene un algoritmo integrado con SageMaker SDK

Para entrenar un modelo seleccionado, necesitamos obtener la URI de ese modelo, así como la del script de entrenamiento y la imagen del contenedor utilizada para el entrenamiento. Afortunadamente, estas tres entradas dependen únicamente del nombre del modelo, la versión (consulte la tabla Modelos JumpStart disponibles para obtener una lista de los modelos disponibles) y el tipo de instancia en el que desea entrenar. Esto se demuestra en el siguiente fragmento de código:

from sagemaker import image_uris, model_uris, script_uris

train_model_id, train_model_version, train_scope = "lightgbm-classification-model", "*", "training"
training_instance_type = "ml.m5.xlarge"

# Retrieve the docker image
train_image_uri = image_uris.retrieve(
    region=None,
    framework=None,
    model_id=train_model_id,
    model_version=train_model_version,
    image_scope=train_scope,
    instance_type=training_instance_type
)
# Retrieve the training script
train_source_uri = script_uris.retrieve(
    model_id=train_model_id, model_version=train_model_version, script_scope=train_scope
)
# Retrieve the model artifact; in the tabular case, the model is not pre-trained 
train_model_uri = model_uris.retrieve(
    model_id=train_model_id, model_version=train_model_version, model_scope=train_scope
)

Que train_model_id cambios a lightgbm-regression-model cuando se trata de un problema de regresión. Los ID de todos los demás modelos que aparecen en esta publicación se enumeran en la siguiente tabla.

modelo	tipo de problema	identificación del modelo
LuzGBM	clasificación	`lightgbm-classification-model`
.	recaída	`lightgbm-regression-model`
gatoboost	clasificación	`catboost-classification-model`
.	recaída	`catboost-regression-model`
Mesa AutoGluon	clasificación	`autogluon-classification-ensemble`
.	recaída	`autogluon-regression-ensemble`
Transformador de pestañas	clasificación	`pytorch-tabtransformerclassification-model`
.	recaída	`pytorch-tabtransformerregression-model`

Luego definimos dónde residen nuestras entradas en Amazon Simple Storage Service (Amazon S3). Usaremos un registro público de muestra para este ejemplo. También definimos dónde debe ir nuestra salida y obtenemos la lista predeterminada de hiperparámetros necesarios para entrenar el modelo seleccionado. Puede cambiar su valor como desee.

import sagemaker
from sagemaker import hyperparameters

sess = sagemaker.Session()
region = sess.boto_session.region_name

# URI of sample training dataset
training_dataset_s3_path = f"s3:///jumpstart-cache-prod-{region}/training-datasets/tabular_multiclass/"

# URI for output artifacts 
output_bucket = sess.default_bucket()
s3_output_location = f"s3://{output_bucket}/jumpstart-example-tabular-training/output"

# Retrieve the default hyper-parameters for training
hyperparameters = hyperparameters.retrieve_default(
    model_id=train_model_id, model_version=train_model_version
)

# [Optional] Override default hyperparameters with custom values
hyperparameters[
    "num_boost_round"
] = "500"  # The same hyperparameter is named as "iterations" for CatBoost

Finalmente, creamos una instancia de SageMaker Estimator con todas las entradas recuperadas y comience el trabajo de entrenamiento con .fit, y pasarle nuestro URI de registro de entrenamiento. Que entry_point script proporcionado se llama transfer_learning.py (lo mismo para otras tareas y algoritmos) y el canal de datos de entrada para pasar a .fit debe ser nombrado training.

from sagemaker.estimator import Estimator
from sagemaker.utils import name_from_base

# Unique training job name
training_job_name = name_from_base(f"built-in-example-{model_id}")

# Create SageMaker Estimator instance
tc_estimator = Estimator(
    role=aws_role,
    image_uri=train_image_uri,
    source_dir=train_source_uri,
    model_uri=train_model_uri,
    entry_point="transfer_learning.py",
    instance_count=1,
    instance_type=training_instance_type,
    max_run=360000,
    hyperparameters=hyperparameters,
    output_path=s3_output_location,
)

# Launch a SageMaker Training job by passing s3 path of the training data
tc_estimator.fit({"training": training_dataset_s3_path}, logs=True)

Tenga en cuenta que puede entrenar algoritmos integrados con el ajuste automático del modelo de SageMaker para seleccionar los hiperparámetros óptimos y mejorar aún más el rendimiento del modelo.

Entrene un algoritmo integrado con SageMaker JumpStart

También puede entrenar estos algoritmos integrados con solo unos pocos clics desde la interfaz de usuario de SageMaker JumpStart. JumpStart es una función de SageMaker que le permite entrenar e implementar algoritmos integrados y modelos previamente entrenados desde varios marcos de ML y centros de modelos a través de una interfaz gráfica. También le permite implementar soluciones de ML completas que unen modelos de ML y varios otros servicios de AWS para resolver un caso de uso específico.

Para obtener más información, consulte Realizar clasificación de texto con Amazon SageMaker JumpStart mediante TensorFlow Hub y abrazar modelos faciales.

Conclusión

En esta publicación, anunciamos el lanzamiento de cuatro nuevos y potentes algoritmos integrados para ML en conjuntos de datos tabulares, ahora disponibles en SageMaker. Hemos proporcionado una descripción técnica de estos algoritmos y un trabajo de entrenamiento de ejemplo para LightGBM usando el SDK de SageMaker.

Traiga su propio conjunto de datos y pruebe estos nuevos algoritmos en SageMaker, y consulte los blocs de notas de muestra para usar los algoritmos integrados disponibles en GitHub.

Sobre los autores

dr. XinHuang es científico aplicado de los algoritmos integrados de Amazon SageMaker JumpStart y Amazon SageMaker. Se centra en el desarrollo de algoritmos escalables de aprendizaje automático. Sus intereses de investigación son el procesamiento del lenguaje natural, el aprendizaje profundo explicable en datos tabulares y el análisis sólido de la agrupación de espacio-tiempo no paramétrica. Ha publicado numerosos artículos en conferencias ACL, ICDM, KDD y en la revista Royal Statistical Society: Serie A.

dr. Ashish Khetan es un científico aplicado sénior que utiliza Amazon SageMaker JumpStart y los algoritmos integrados de Amazon SageMaker, lo que ayuda a desarrollar algoritmos de aprendizaje automático. Es un investigador activo en el campo del aprendizaje automático y la inferencia estadística y ha publicado numerosos artículos en las conferencias NeurIPS, ICML, ICLR, JMLR, ACL y EMNLP.

joao moura es Arquitecto de Soluciones Especialista en IA/ML en Amazon Web Services. Centrado principalmente en casos de uso de NLP, ayuda a los clientes a optimizar la capacitación y la implementación de modelos de aprendizaje profundo. También es un defensor activo de las soluciones de aprendizaje automático de código bajo y el hardware especializado en aprendizaje automático.

[ad_2]

Subscribe to Updates

What's Hot