[ad_1]
Cuando el Lincoln Laboratory Supercomputing Center (LLSC) del MIT presentó su supercomputadora TX-GAIA en 2019, proporcionó a la comunidad del MIT un nuevo y poderoso recurso para aplicar la inteligencia artificial a su investigación. Cualquiera en el MIT puede enviar un trabajo al sistema, que ejecuta trillones de operaciones por segundo para entrenar modelos para diversas aplicaciones, como: B. la detección de tumores en imágenes médicas, el descubrimiento de nuevos fármacos o la modelización de efectos climáticos. Pero con este gran poder viene la gran responsabilidad de administrarlo y operarlo de manera sostenible, y el equipo está buscando formas de mejorar.
“Tenemos estas poderosas herramientas computacionales que los investigadores pueden usar para crear modelos complicados para resolver problemas, pero esencialmente pueden usarse como cajas negras. Lo que se pierde en eso es si realmente estamos usando el hardware de la manera más efectiva posible», dice Siddharth Samsi, investigador asociado del LLSC.
Para obtener información sobre este desafío, el LLSC recopiló datos detallados sobre el uso de TX-GAIA durante el año pasado. Después de más de un millón de trabajos de usuarios, el equipo ha lanzado el conjunto de datos como código abierto para la comunidad informática.
Su objetivo es permitir que los científicos informáticos y los operadores de centros de datos comprendan mejor las formas de optimizar los centros de datos, una tarea importante a medida que las demandas de procesamiento continúan creciendo. También ven potencial para aprovechar la IA en el propio centro de datos, utilizando los datos para desarrollar modelos para predecir puntos de falla, optimizar la programación de trabajos y mejorar la eficiencia energética. Si bien los proveedores de la nube están trabajando activamente para optimizar sus centros de datos, a menudo no ponen sus datos o modelos a disposición de la comunidad más amplia de computación de alto rendimiento (HPC). El lanzamiento de este conjunto de datos y el código asociado intenta llenar ese espacio.
“Los centros de datos están cambiando. Tenemos una explosión de plataformas de hardware, los tipos de cargas de trabajo están evolucionando y los tipos de personas que utilizan los centros de datos están cambiando”, dijo Vijay Gadepally, investigador principal del LLSC. “Hasta ahora, no ha habido una buena manera de analizar el impacto en los centros de datos. Vemos esta investigación y conjunto de datos como un gran paso hacia un enfoque basado en principios para comprender cómo estas variables interactúan entre sí y luego aplicar IA para obtener información y mejoras».
Se han aceptado documentos que describen el conjunto de datos y las aplicaciones potenciales para varios lugares, incluido el Simposio internacional IEEE sobre arquitectura informática de alto rendimiento, el Simposio internacional de procesamiento paralelo y distribuido de IEEE, la conferencia anual del capítulo norteamericano de la Asociación de lingüística computacional. , la Conferencia de Computación Embebida y de Alto Rendimiento del IEEE y la Conferencia Internacional de Computación, Redes, Almacenamiento y Análisis de Alto Rendimiento.
Clasificación de carga de trabajo
Entre las supercomputadoras TOP500 del mundo, TX-GAIA combina hardware informático tradicional (unidades centrales de procesamiento o CPU) con casi 900 aceleradores de unidades de procesamiento de gráficos (GPU). Estas GPU NVIDIA se especializan en aprendizaje profundo, la clase de IA que dio origen al reconocimiento de voz y la visión por computadora.
El conjunto de datos cubre el uso de CPU, GPU y memoria por trabajo; registros de planificación; y datos de vigilancia física. En comparación con conjuntos de datos similares, como los de Google y Microsoft, el conjunto de datos LLSC «ofrece datos etiquetados, una variedad de cargas de trabajo de IA conocidas y datos de series temporales más detallados en comparación con conjuntos de datos anteriores. Hasta donde sabemos, es uno de los conjuntos de datos disponibles más completos y detallados», dice Gadepally.
Específicamente, el equipo recopiló datos de series temporales con un nivel de detalle sin precedentes: intervalos de 100 milisegundos en cada GPU e intervalos de 10 segundos en cada CPU mientras las máquinas procesaban más de 3000 trabajos de aprendizaje profundo conocidos. Uno de los primeros objetivos es utilizar este conjunto de datos etiquetados para caracterizar las cargas de trabajo que impulsan diferentes tipos de trabajos de aprendizaje profundo en el sistema. Este proceso extraería características que revelarían, por ejemplo, diferencias en la forma en que el hardware maneja los modelos de lenguaje natural frente a la clasificación de imágenes o los modelos de diseño de materiales.
El equipo ahora ha creado el MIT Datacenter Challenge para movilizar esta investigación. El desafío invita a los investigadores a utilizar técnicas de IA para identificar con un 95 % de precisión el tipo de trabajo que se está realizando, utilizando sus datos de series de tiempo etiquetados como datos reales.
Estos conocimientos podrían permitir que los centros de datos coincidan mejor con la solicitud de trabajo de un usuario con el hardware más apropiado para el trabajo, lo que podría ahorrar energía y mejorar el rendimiento del sistema. La clasificación de las cargas de trabajo también podría permitir a los operadores identificar rápidamente las discrepancias debidas a fallas de hardware, patrones de acceso a datos ineficientes o uso no autorizado.
demasiadas opciones
Hoy en día, el LLSC ofrece herramientas para que los usuarios envíen su pedido y elijan los procesadores que desean usar, «pero son muchas conjeturas para los usuarios», dice Samsi. «Alguien podría querer usar la última GPU, pero tal vez su computación realmente no la necesite y podría obtener resultados igual de impresionantes en CPU o máquinas de menor potencia».
El profesor de la Universidad Northeastern, Devesh Tiwari, está trabajando con el equipo de LLSC para desarrollar técnicas que puedan ayudar a los usuarios a adaptar sus cargas de trabajo al hardware adecuado. Tiwari explica que la aparición de diferentes tipos de aceleradores de IA, GPU y CPU ha provocado que los usuarios tengan demasiadas opciones. Sin las herramientas adecuadas para aprovechar esta heterogeneidad, se pierden los beneficios: mejor rendimiento, menores costos y mayor productividad.
“Estamos abordando esa brecha de rendimiento, haciendo que los usuarios sean más productivos y ayudándolos a hacer ciencia mejor y más rápido sin preocuparse por administrar hardware heterogéneo”, dice Tiwari. “Mi estudiante de posgrado Baolin Li está desarrollando nuevas habilidades y herramientas para ayudar a los usuarios de HPC a hacer un uso casi óptimo de la heterogeneidad sin la intervención del usuario, utilizando técnicas basadas en la optimización bayesiana y otros métodos de optimización basados en el aprendizaje. Pero esto es solo el principio. Estamos buscando formas de introducir heterogeneidad en nuestros centros de datos con un enfoque basado en principios para ayudar a nuestros usuarios a lograr el máximo beneficio de la heterogeneidad de manera autónoma y rentable”.
La clasificación de la carga de trabajo es el primero de muchos problemas planteados por Datacenter Challenge. Otros incluyen el desarrollo de técnicas de inteligencia artificial para predecir fallas en el trabajo, ahorrar energía o crear enfoques de programación de trabajos que mejoren la eficiencia de enfriamiento del centro de datos.
El ahorro de energía
Para movilizar la investigación hacia una computación más ecológica, el equipo también planea publicar un conjunto de datos ambientales de las operaciones de TX-GAIA que incluye la temperatura del rack, el consumo de energía y otros datos relevantes.
Según los investigadores, existen enormes oportunidades para mejorar la eficiencia energética de los sistemas HPC utilizados para el procesamiento de IA. Como ejemplo, un trabajo reciente en el LLSC ha encontrado que el ajuste de hardware simple, como Por ejemplo, limitar la cantidad de energía que puede consumir una sola GPU podría reducir el costo de energía de entrenar un modelo de IA en un 20 por ciento con solo un pequeño aumento en el tiempo de cómputo. “Esta reducción equivale a cerca de una semana completa de energía domiciliaria por un aumento de tiempo de apenas tres horas”, dice Gadepally.
También han desarrollado técnicas para predecir la precisión del modelo, lo que permite a los usuarios finalizar rápidamente experimentos que probablemente no produzcan resultados significativos y ahorrar energía. El Datacenter Challenge compartirá datos relevantes para que los investigadores puedan explorar otras formas de ahorrar energía.
El equipo espera que los conocimientos obtenidos de esta investigación se apliquen a los miles de centros de datos operados por el Departamento de Defensa de EE. UU. La Fuerza Aérea de EE. UU. patrocina este trabajo, que se lleva a cabo como parte del Acelerador de IA de la USAF-MIT.
Otros colaboradores son investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT. El grupo de investigación Supertech del profesor Charles Leiserson está investigando técnicas de mejora del rendimiento para la computación paralela, y el científico investigador Neil Thompson está diseñando estudios sobre cómo alentar a los usuarios del centro de datos a comportarse de una manera más respetuosa con el medio ambiente.
Samsi presentó este trabajo en el primer taller de IA para la optimización de centros de datos (ADOPT’22) la primavera pasada en el Simposio internacional de procesamiento paralelo y distribuido de IEEE. El taller presentó oficialmente su Datacenter Challenge a la comunidad de HPC.
«Esperamos que esta investigación nos permita a nosotros y a otros que gestionan centros de supercomputación responder mejor a las necesidades de los usuarios y, al mismo tiempo, reducir el consumo de energía a nivel del centro», dice Samsi.
[ad_2]