La tienda de características de Amazon SageMaker ayuda a los científicos de datos y a los ingenieros de aprendizaje automático (ML) a almacenar, descubrir y compartir de forma segura datos seleccionados que se utilizan en los flujos de trabajo de capacitación y predicción. Feature Store es un repositorio central de funciones y metadatos asociados, lo que permite que los equipos de científicos de datos que trabajan en diferentes proyectos o modelos de ML puedan descubrir y reutilizar fácilmente las funciones.
Feature Store siempre le ha permitido agregar metadatos a nivel de grupo de funciones. Los científicos de datos que buscan buscar y descubrir características existentes para sus modelos ahora tienen la capacidad de buscar información en el nivel de características agregando metadatos personalizados. Por ejemplo, la información puede incluir una descripción de la característica, la fecha en que se modificó por última vez, su fuente de datos original, métricas específicas o el nivel de sensibilidad.
El siguiente diagrama ilustra las relaciones arquitectónicas entre los grupos de funciones, las funciones y los metadatos asociados. Tenga en cuenta que los científicos de datos ahora pueden proporcionar descripciones y metadatos tanto a nivel de grupo de características como a nivel de característica individual.
En esta publicación, explicamos cómo los científicos de datos y los ingenieros de ML pueden usar metadatos a nivel de función con las nuevas capacidades de búsqueda y descubrimiento de Feature Store para impulsar una mejor reutilización de funciones en su organización. Esta capacidad puede ser de gran ayuda para los científicos de datos en el proceso de selección de características, ayudándolos así a identificar características que conducen a una mayor precisión del modelo.
caso de uso
Para los propósitos de esta publicación, usaremos dos grupos de funciones, customer
y loan
.
Que customer
El grupo de funciones tiene las siguientes funciones:
- años – Edad del cliente (numérico)
- trabajar – Tipo de orden (codificación one-hot, como
admin
oservices
) - marital – Estado civil (codificado en caliente, como
married
osingle
) - educación – Nivel de educación (codificado one-hot, p. ej.
basic 4y
ohigh school
)
Que loan
El grupo de funciones tiene las siguientes funciones:
- Originalmente – ¿Crédito en mora? (One-Hot codificado:
no
oyes
) - Alojamiento – ¿Tiene préstamos hipotecarios? (One-Hot codificado:
no
oyes
) - préstamo – ¿Tiene un préstamo personal? (One-Hot codificado:
no
oyes
) - Total – Importe total de los préstamos (numérico)
La siguiente figura muestra ejemplos de grupos de funciones y metadatos de funciones.
El propósito de agregar una descripción y asignar metadatos a cada característica es aumentar la velocidad de descubrimiento al habilitar nuevos parámetros de búsqueda que un científico de datos o un ingeniero de ML pueden usar para explorar características. Estos pueden reflejar detalles sobre una función, como B. su cálculo, si es un promedio de 6 meses o 1 año, procedencia, creador o propietario, qué significa la característica y más.
En las siguientes secciones, proporcionamos dos enfoques para encontrar y descubrir funciones y configurar metadatos a nivel de función: el primero con Amazon SageMaker Studio directamente y el segundo mediante programación.
Detección de características en Studio
Studio facilita las funciones de búsqueda y consulta. Con las nuevas funciones de reconocimiento y búsqueda avanzada, puede obtener resultados al instante con solo anteponer algunos caracteres.
La siguiente captura de pantalla muestra las siguientes funciones:
- Puedes acceder a la catalogo de funciones pestaña y observe las características en los grupos de características. Las funciones se presentan en una tabla que contiene el nombre de la función, el tipo, la descripción, los parámetros, la fecha de creación y el nombre del grupo de funciones asociado.
- Puede utilizar la función de entrada rápida directamente para obtener resultados de búsqueda al instante.
- Tiene la flexibilidad de usar diferentes tipos de opciones de filtro:
All
,Feature name
,Description
oParameters
. Tenga en cuenta queAll
devuelve todas las características en las queFeature name
,Description
oParameters
coincida con los criterios de búsqueda. - Puede restringir aún más la búsqueda especificando un rango de fechas usando
Created from
yCreated to
Campos y especificación de parámetros con elSearch parameter key
ySearch parameter value
Campos.
Después de seleccionar una función, puede seleccionar el nombre de la función para ver sus detalles. Si tu escoges Editar metadatos, puede agregar una descripción y hasta 25 parámetros clave-valor como se muestra en la siguiente captura de pantalla. Finalmente, en esta vista, puede crear, ver, actualizar y eliminar los metadatos de la función. La siguiente captura de pantalla ilustra cómo editar metadatos de entidades para total_amount
.
Como se mencionó anteriormente, agregar pares clave-valor a una característica le brinda más dimensiones a lo largo de las cuales buscar esa característica. En nuestro ejemplo, el origen de la función se agregó a los metadatos de cada función. Cuando selecciona el ícono de búsqueda y filtra por el par clave-valor origin: job
puede ver todas las características que han sido codificadas en caliente por este atributo base.
Detección de características usando código
También puede acceder a la información de funciones y actualizarla mediante la interfaz de línea de comandos de AWS (AWS CLI) y el SDK (Boto3) en lugar de usar directamente la Consola de administración de AWS. Esto le permite integrar la capacidad de búsqueda a nivel de función de Feature Store en sus propias plataformas de ciencia de datos personalizadas. En esta sección, interactuaremos con los extremos de la API de Boto3 para actualizar y examinar los metadatos de funciones.
Para comenzar a mejorar la búsqueda y detección de características, puede agregar usando metadatos update_feature_metadata
API. Además de description
y created_date
Los campos le permiten agregar hasta 25 parámetros (pares clave-valor) a una característica específica.
El siguiente código es un ejemplo de cinco posibles parámetros clave-valor agregados al job_admin
característica especial. Esta función fue creada junto con job_services
y job_none
a través de codificación one-hot job
.
A author
, team
, origin
, sensitivity
y env
fueron agregados job_admin
característica, los científicos de datos o los ingenieros de ML pueden recuperarlos llamando al describe_feature_metadata
API. puedes navegar Parameters
Objeto en la respuesta de los metadatos que agregamos a nuestra función anteriormente. Que describe_feature_metadata
El punto final de la API le permite obtener una mejor perspectiva de una función específica al recuperar sus metadatos.
Puede buscar funciones con SageMaker search
API que utiliza metadatos como parámetros de búsqueda. El siguiente código es una función de ejemplo que acepta un search_string
parámetros como entrada y devuelve todas las funciones donde el nombre de la función, la descripción o los parámetros coinciden con la condición:
El fragmento de código a continuación usa el nuestro search_features
función para recuperar todas las funciones para las que el nombre de la función, la descripción o los parámetros contienen la palabra job
:
La siguiente captura de pantalla muestra la lista de nombres de funciones coincidentes y sus metadatos correspondientes, incluidas las marcas de tiempo de creación y última modificación para cada función. Puede utilizar esta información para mejorar el reconocimiento y la visibilidad de las características de su organización.
Conclusión
SageMaker Feature Store proporciona una solución de administración de funciones especialmente diseñada que permite a las organizaciones escalar el desarrollo de ML en unidades comerciales y equipos de ciencia de datos. Mejorar la reutilización de funciones y la consistencia de funciones son los principales beneficios de un almacén de funciones. En esta publicación, explicamos cómo puede usar metadatos a nivel de función para mejorar la búsqueda y el descubrimiento de funciones. Esto implicó crear metadatos para una variedad de casos de uso y usarlos como parámetros de búsqueda adicionales.
Pruébelo y háganos saber lo que piensa en los comentarios. Para obtener más información sobre cómo colaborar y compartir funciones en la Tienda de funciones, lea Reutilización de funciones entre cuentas y equipos con la Tienda de funciones de Amazon SageMaker.
Sobre los autores
Arnaud Lauer es Arquitecto de Soluciones de Socio Senior en el equipo del Sector Público en AWS. Permite a los socios y clientes comprender la mejor manera de aprovechar las tecnologías de AWS para traducir las necesidades comerciales en soluciones. Aporta más de 16 años de experiencia en la entrega y el diseño de proyectos de transformación digital en una variedad de industrias, incluido el sector público, la energía y los productos de consumo. La inteligencia artificial y el aprendizaje automático están entre sus pasiones. Arnaud posee 12 certificaciones de AWS, incluida la Certificación de especialidad de ML.
Nicolás Bernier es Arquitecto de Soluciones Asociado, parte del equipo del Sector Público de Canadá en AWS. Actualmente está cursando una maestría con un área de investigación en aprendizaje profundo y posee cinco certificaciones de AWS, incluida la Certificación de especialidad de ML. A Nicolás le apasiona ayudar a los clientes a profundizar su conocimiento de AWS colaborando con ellos para traducir sus desafíos comerciales en soluciones técnicas.
marcus roy es el Arquitecto principal de aprendizaje automático de AWS, que ayuda a los clientes a diseñar y crear soluciones de IA/ML. El trabajo de Mark cubre una amplia gama de casos de uso de ML, y sus principales intereses son la visión artificial, el aprendizaje profundo y la ampliación de ML en toda la empresa. Ha ayudado a empresas de muchas industrias, incluidas las de seguros, servicios financieros, medios y entretenimiento, atención médica, servicios públicos y manufactura. Mark posee seis certificaciones de AWS, incluida la Certificación de especialidad de ML. Antes de unirse a AWS, Mark fue arquitecto, desarrollador y líder tecnológico durante más de 25 años, incluidos 19 años en servicios financieros.
Khushboo Srivastava es gerente sénior de productos de Amazon SageMaker. Le gusta desarrollar productos que simplifiquen los flujos de trabajo de aprendizaje automático para los clientes. En su tiempo libre le gusta tocar el violín, practicar yoga y viajar.