[ad_1]
Hoy nos complace anunciar que el modelo base Falcon 180B desarrollado por el Instituto de Innovación Tecnológica (TII) está disponible para los clientes a través de Amazon SageMaker JumpStart y se puede implementar con un solo clic para ejecutar inferencia. Con un tamaño de parámetro de 180 mil millones y entrenado en un conjunto de datos masivo con 3,5 billones de tokens, Falcon 180B es el modelo más grande y uno de los de mejor rendimiento con pesos abiertos. Puede probar este modelo con SageMaker JumpStart, un centro de aprendizaje automático (ML) que brinda acceso a algoritmos, modelos y soluciones de ML para comenzar a utilizar ML rápidamente. En esta publicación, aprenderá cómo descubrir e implementar el modelo Falcon 180B a través de SageMaker JumpStart.
¿Qué es el Halcón 180B?
Falcon 180B es un modelo lanzado por TII que sigue a versiones anteriores de la familia Falcon. Es una versión ampliada de Falcon 40B y aprovecha la atención de múltiples consultas para una mejor escalabilidad. Es un modelo de lenguaje autorregresivo que utiliza una arquitectura transformadora optimizada. Fue entrenado con 3,5 billones de tokens de datos, la mayoría de los cuales consisten en datos web de RefinedWeb (alrededor del 85%). El modelo tiene dos versiones: 180B y 180B-Chat. 180B es un modelo en bruto y previamente entrenado que debería perfeccionarse aún más para la mayoría de los casos de uso. El chat 180B es mejor para instrucciones generales. El modelo de chat se ha ajustado para conjuntos de datos de chat y comandos, así como para múltiples conjuntos de datos de conversaciones a gran escala.
El modelo se proporciona bajo la licencia Falcon-180B TII y la Política de uso aceptable.
Falcon 180B fue entrenado por TII en Amazon SageMaker en un grupo de GPU A100 de aproximadamente 4K. Utilizó una base de código de entrenamiento distribuida personalizada llamada Gigatron, que aprovecha el paralelismo 3D con ZeRO y núcleos Triton personalizados de alto rendimiento. La arquitectura de capacitación distribuida utilizó Amazon Simple Storage Service (Amazon S3) como un único servicio unificado para cargar datos y escribir y leer puntos de control, lo que contribuyó particularmente a la confiabilidad de la carga de trabajo y la simplicidad operativa.
¿Qué es SageMaker JumpStart?
Con SageMaker JumpStart, los profesionales del aprendizaje automático pueden elegir entre una lista cada vez mayor de los modelos básicos más potentes. Los profesionales de ML pueden implementar modelos base en instancias dedicadas de SageMaker en un entorno aislado de red y personalizar modelos utilizando Amazon SageMaker para el entrenamiento e implementación de modelos.
Ahora puede descubrir e implementar Falcon 180B con solo unos pocos clics en Amazon SageMaker Studio o mediante programación a través del SDK de SageMaker Python, obteniendo el rendimiento del modelo y controles MLOps con funciones de SageMaker como Amazon SageMaker Pipelines, Amazon SageMaker Debugger o registros de contenedores. El modelo se implementa en un entorno seguro de AWS y bajo el control de su VPC para garantizar la seguridad de los datos. Falcon 180B es detectable y se puede implementar en regiones donde las instancias requeridas estén disponibles. Actualmente, las instancias ml.p4de están disponibles en las regiones Este de EE. UU. (Norte de Virginia) y Oeste de EE. UU. (Oregón).
Descubre modelos
Puede acceder a los modelos base a través de SageMaker JumpStart en la interfaz de usuario de SageMaker Studio y el SDK de SageMaker Python. En esta sección aprenderá cómo descubrir los modelos en SageMaker Studio.
SageMaker Studio es un entorno de desarrollo integrado (IDE) que proporciona una única interfaz visual basada en web a través de la cual puede acceder a herramientas diseñadas específicamente para realizar todos los pasos de desarrollo de ML, desde la preparación de datos hasta la creación, el entrenamiento y la implementación de sus modelos de ML. Para obtener más información sobre cómo comenzar y configurar SageMaker Studio, consulte Amazon SageMaker Studio.
En SageMaker Studio, puede acceder a SageMaker JumpStart, que incluye modelos, cuadernos y soluciones prediseñadas previamente entrenados. Soluciones prediseñadas y automatizadas.
Puede buscar soluciones, modelos, cuadernos y otros recursos en la página de inicio de SageMaker JumpStart. Puedes encontrar Falcon 180B en Modelos básicos: generación de texto. Carrusel.
También puede encontrar otras variantes de modelos en la selección Descubra todos los modelos de generación de texto o buscando Falcon
.
Puede seleccionar la tarjeta del modelo para ver detalles sobre el modelo, como: B. Licencia, datos utilizados para la formación y método de uso. También encontrarás dos botones, Insertar Y abre el cuadernoque le ayudará a utilizar el modelo (la siguiente captura de pantalla muestra el Insertar Posibilidad).
Proporcionar modelos
Si tu eliges Insertar, comienza la implementación del modelo. Alternativamente, puede implementar desde el cuaderno de muestra que aparece haciendo clic abre el cuaderno. El cuaderno de muestra proporciona instrucciones completas para implementar el modelo para inferencia y limpieza de recursos.
Para implementar usando una computadora portátil, primero seleccionamos un modelo apropiado, indicado por model_id
. Puede implementar cualquiera de los modelos seleccionados en SageMaker usando el siguiente código:
Esto implementa el modelo en SageMaker con configuraciones predeterminadas, incluido el tipo de instancia predeterminado y las configuraciones de VPC predeterminadas. Puede cambiar estas configuraciones especificando valores no estándar JumpStartModel
. Para obtener más información, consulte la documentación de la API. Después de la implementación, puede hacer inferencias sobre el punto final implementado a través de un predictor de SageMaker. Vea el siguiente código:
Los parámetros de inferencia controlan el proceso de generación de texto en el punto final. El número máximo de tokens nuevos se refiere al tamaño de la salida generada por el modelo. Tenga en cuenta que esto no es lo mismo que el número de palabras porque el vocabulario del modelo no coincide con el vocabulario del idioma inglés y no todos los tokens son palabras del idioma inglés. La temperatura controla la aleatoriedad de la salida. Las temperaturas más altas conducen a resultados más creativos y alucinatorios. Todos los parámetros de inferencia son opcionales.
Este modelo de parámetros de 180B tiene un tamaño de 335 GB y requiere aún más memoria GPU para realizar una inferencia suficiente con una precisión de 16 bits. Actualmente, JumpStart solo admite este modelo en instancias ml.p4de.24xlarge. Es posible implementar un modelo cuantificado de 8 bits en una instancia ml.p4d.24xlarge proporcionando lo siguiente env={"HF_MODEL_QUANTIZE": "bitsandbytes"}
Argumento de palabra clave para JumpStartModel
Constructor y especificación instance_type="ml.p4d.24xlarge"
al método de implementación. Sin embargo, tenga en cuenta que la latencia por token es aproximadamente cinco veces más lenta con esta configuración cuantificada.
La siguiente tabla enumera todos los modelos Falcon disponibles en SageMaker JumpStart junto con los ID de modelo, los tipos de instancias predeterminados, la cantidad máxima de tokens totales admitidos (suma de la cantidad de tokens de entrada y la cantidad de tokens generados) y la latencia de respuesta típica por token. para cada uno de estos Modelos.
Nombre del modelo | ID del modelo | Tipo de instancia predeterminado | Número total máximo de tokens | Latencia por token* |
Halcón 7B | huggingface-llm- falcon-7b-bf16 |
ml.g5.2xgrande | 2048 | 34 ms |
Instrucciones del Halcón 7B | huggingface-llm- falcon-7b-instruct-bf16 |
ml.g5.2xgrande | 2048 | 34 ms |
Halcón 40B | huggingface-llm- falcon-40b-bf16 |
ml.g5.12xgrande | 2048 | 57 ms |
Instrucciones del Halcón 40B | huggingface-llm- falcon-40b-instruct-bf16 |
ml.g5.12xgrande | 2048 | 57 ms |
Halcón 180B | huggingface-llm- falcon-180b-bf16 |
ml.p4de.24xgrande | 2048 | 45 ms |
Halcón 180B Charla | huggingface-llm- falcon-180b-chat-bf16 |
ml.p4de.24xgrande | 2048 | 45 ms |
*La latencia por token se proporciona para el tiempo medio de respuesta de las indicaciones de muestra proporcionadas en este blog. Este valor varía dependiendo de la longitud de las secuencias de entrada y salida.
Conclusiones y ejemplos de indicaciones para Falcon 180B
Los modelos Falcon se pueden utilizar para completar texto de cualquier sección de texto. La generación de texto le permite realizar una variedad de tareas como: B. responder preguntas, traducciones de idiomas, análisis de sentimientos y mucho más. El punto final acepta el siguiente esquema de carga útil de entrada:
Puede explorar la definición de estos parámetros del cliente y sus valores predeterminados en el repositorio de inferencia de generación de texto.
A continuación se muestran algunos ejemplos de indicaciones y el texto generado por el modelo. Todas las salidas aquí se generan con parámetros de inferencia. {"max_new_tokens": 768, "stop": ["<|endoftext|>", "###"]}
.
La creación de un sitio web se puede realizar en 10 sencillos pasos:
Es posible que descubra que este modelo previamente entrenado genera secuencias de texto largas, que no son necesariamente ideales para casos de uso conversacionales. Antes de mostrar cómo funciona el modelo de chat optimizado para un conjunto más amplio de mensajes de conversación, los dos ejemplos siguientes ilustran cómo utilizar modelos Falcon de pocas tomas en el aprendizaje contextual, donde proporcionamos al modelo ejemplos de entrenamiento. Tenga en cuenta que el aprendizaje de pocas oportunidades no ajusta los pesos del modelo; solo realizamos inferencias en el modelo proporcionado durante este proceso, al tiempo que proporcionamos algunos ejemplos en el contexto de entrada para respaldar la salida del modelo de gremio.
Conclusiones y ejemplos de mensajes para el chat del Falcon 180B
Para los modelos de chat Falcon 180B optimizados para casos de uso conversacionales, la entrada a los puntos finales del modelo de chat puede incluir un historial previo entre el asistente de chat y el usuario. Puede hacer preguntas relacionadas con la conversación que ha tenido lugar hasta ahora. También puede proporcionar la configuración del sistema, como por ejemplo: B. Personas que definen el comportamiento del asistente de chat. La carga útil de entrada al punto final es la misma excepto en el modelo Falcon 180B. inputs
El valor de la cadena debe utilizar el siguiente formato:
A continuación se muestran algunos ejemplos de indicaciones y el texto generado por el modelo. Todas las salidas se generan con parámetros de inferencia. {"max_new_tokens":256, "stop": ["\nUser:", "<|endoftext|>", " User:", "###"]}.
En el siguiente ejemplo, el usuario mantuvo una conversación con el asistente sobre los lugares de interés de París. A continuación, el usuario consulta sobre la primera opción recomendada por el asistente de chat.
Limpiar
Una vez que termine de ejecutar el cuaderno, asegúrese de eliminar todos los recursos que creó en el proceso para detener su facturación. Utilice el siguiente código:
Diploma
En esta publicación, le mostramos cómo comenzar con Falcon 180B en SageMaker Studio e implementar el modelo para inferencia. Dado que los modelos base están previamente entrenados, pueden ayudar a reducir los costos de capacitación e infraestructura y permitir la personalización según su caso de uso. Visite SageMaker JumpStart en SageMaker Studio ahora para comenzar.
recursos
Sobre los autores
kyle ulrich es un científico aplicado del equipo JumpStart de Amazon SageMaker. Sus intereses de investigación incluyen algoritmos escalables de aprendizaje automático, visión por computadora, series temporales, procesos bayesianos no paramétricos y procesos gaussianos. Recibió su doctorado en la Universidad de Duke y ha publicado artículos en NeurIPS, Cell y Neuron.
Dr. ashish khetan es científico aplicado senior en Amazon SageMaker JumpStart y ayuda a desarrollar algoritmos de aprendizaje automático. Recibió su doctorado en la Universidad de Illinois Urbana-Champaign. Es un investigador activo en aprendizaje automático e inferencia estadística y ha publicado numerosos artículos en las conferencias NeurIPS, ICML, ICLR, JMLR, ACL y EMNLP.
Olivier CruchanEs arquitecto principal de soluciones especializado en aprendizaje automático en AWS con sede en Francia. Olivier ayuda a los clientes de AWS, desde pequeñas empresas emergentes hasta grandes empresas, a desarrollar e implementar aplicaciones de aprendizaje automático listas para producción. En su tiempo libre, le gusta leer artículos de investigación y explorar la naturaleza con amigos y familiares.
Karl Albertsen dirige el Foundation Model Hub, los algoritmos y los equipos de asociación de Amazon SageMaker.
[ad_2]