[ad_1]
Los microcontroladores, computadoras en miniatura que pueden ejecutar comandos simples, son la base de miles de millones de dispositivos conectados, desde dispositivos de Internet de las cosas (IoT) hasta sensores en automóviles. Pero los microcontroladores baratos y de bajo consumo tienen una memoria extremadamente limitada y no tienen sistema operativo, lo que dificulta el entrenamiento de modelos de inteligencia artificial en «dispositivos de borde» que funcionan independientemente de los recursos informáticos centrales.
Entrenar un modelo de aprendizaje automático en un dispositivo de borde inteligente le permite adaptarse a nuevos datos y hacer mejores predicciones. Por ejemplo, entrenar a un modelo en un teclado inteligente podría permitir que el teclado aprenda continuamente de la escritura del usuario. Sin embargo, el proceso de entrenamiento requiere tanta memoria que, por lo general, se realiza con computadoras potentes en un centro de datos antes de implementar el modelo en un dispositivo. Esto es más costoso y plantea problemas de privacidad, ya que los datos del usuario deben enviarse a un servidor central.
Para abordar este problema, los investigadores del MIT y el MIT-IBM Watson AI Lab han desarrollado una nueva técnica que permite el entrenamiento en el dispositivo utilizando menos de un cuarto de megabyte de memoria. Otras soluciones de formación diseñadas para dispositivos conectados pueden utilizar más de 500 megabytes de memoria, superando con creces la capacidad de 256 kilobytes de la mayoría de los microcontroladores (hay 1024 kilobytes en un megabyte).
Los marcos y algoritmos inteligentes que han desarrollado los investigadores reducen el esfuerzo computacional necesario para entrenar un modelo, lo que hace que el proceso sea más rápido y más eficiente en términos de memoria. Su técnica se puede usar para entrenar un modelo de aprendizaje automático en un microcontrolador en minutos.
Esta técnica también protege la privacidad al almacenar datos en el dispositivo, lo que puede ser particularmente beneficioso cuando los datos son confidenciales, como B. en aplicaciones médicas. También podría permitir la personalización de un modelo en función de las necesidades del usuario. Además, el marco conserva o mejora la precisión del modelo en comparación con otros enfoques de capacitación.
“Nuestro estudio permite que los dispositivos IoT no solo realicen inferencias, sino que también actualicen continuamente los modelos de IA con datos recién recopilados, allanando el camino para el aprendizaje permanente en el dispositivo. El bajo uso de recursos hace que el aprendizaje profundo sea más accesible y pueda tener un alcance más amplio, especialmente para dispositivos periféricos de bajo consumo», dice Song Han, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS), miembro de MIT-IBM. Watson AI Lab y autor principal del artículo que describe esta innovación.
Junto a Han en el trabajo están los coautores principales y estudiantes graduados de EECS Ji Lin y Ligeng Zhu, y los posdoctorados del MIT Wei-Ming Chen y Wei-Chen Wang y Chuang Gan, investigador principal en el laboratorio Watson AI de MIT-IBM. Los resultados de la investigación se presentarán en la Conferencia sobre Sistemas de Procesamiento de Información Neural.
Han y su equipo abordaron previamente los cuellos de botella computacionales y de memoria al intentar ejecutar modelos de aprendizaje automático en dispositivos de borde diminutos como parte de su iniciativa TinyML.
entrenamiento ligero
Un tipo común de modelo de aprendizaje automático se conoce como red neuronal. Basados libremente en el cerebro humano, estos modelos contienen capas de nodos interconectados, o neuronas, que procesan datos para realizar una tarea, p. B. Reconocer personas en fotografías. El modelo primero debe ser entrenado, lo que significa mostrarle millones de ejemplos para que pueda aprender la tarea. A medida que aprende, el modelo aumenta o disminuye la fuerza de las conexiones entre las neuronas, conocidas como pesos.
El modelo puede pasar por cientos de actualizaciones a medida que aprende, y las activaciones intermedias deben guardarse durante cada ronda. En una red neuronal, la activación es el resultado intermedio de la capa intermedia. Debido a que puede haber millones de pesos y activaciones, entrenar un modelo requiere mucha más memoria que ejecutar un modelo previamente entrenado, explica Han.
Han y sus colaboradores utilizaron dos soluciones algorítmicas para hacer que el proceso de entrenamiento fuera más eficiente y menos intensivo en memoria. El primero, conocido como Sparse Update, utiliza un algoritmo que identifica los pesos clave que deben actualizarse en cada ronda de entrenamiento. El algoritmo comienza a congelar los pesos uno por uno hasta que ve que la precisión cae a un umbral establecido y luego se detiene. Los pesos restantes se actualizan mientras que las activaciones correspondientes a los pesos congelados no necesitan almacenarse en memoria.
“Actualizar todo el modelo es muy costoso porque hay muchas activaciones, por lo que la gente tiende a actualizar solo la última capa, pero como se puede imaginar, afecta la precisión. Para nuestro método, actualizamos selectivamente estos pesos importantes y nos aseguramos de que la precisión se mantenga por completo”, dice Han.
Su segunda solución implica el entrenamiento cuantificado y la simplificación de los pesos, que suelen ser de 32 bits. Un algoritmo redondea los pesos a solo ocho bits a través de un proceso conocido como cuantización, lo que reduce la cantidad de memoria utilizada para el entrenamiento y la inferencia. La inferencia es el proceso de aplicar un modelo a un conjunto de datos y generar una predicción. Luego, el algoritmo aplica una técnica llamada Quantization-Aware Scaling (QAS), que actúa como un multiplicador, para ajustar la relación entre el peso y el gradiente para evitar cualquier pérdida de precisión que pueda resultar del entrenamiento cuantificado.
Los investigadores desarrollaron un sistema llamado Tiny Training Engine que puede ejecutar estas innovaciones algorítmicas en un microcontrolador simple sin un sistema operativo. Este sistema cambia el orden de los pasos en el proceso de entrenamiento para que se realice más trabajo en la fase de compilación antes de implementar el modelo en el dispositivo Edge.
“Aplazamos gran parte de los cálculos, p. B. la diferenciación automática y la optimización de gráficos, en tiempo de compilación. También estamos eliminando agresivamente los operadores redundantes para admitir actualizaciones escasas. Una vez en tiempo de ejecución, tenemos mucho menos trabajo en el dispositivo”, explica Han.
Una aceleración exitosa
Su optimización requirió solo 157 kilobytes de memoria para entrenar un modelo de aprendizaje automático en un microcontrolador, mientras que otras técnicas diseñadas para un entrenamiento sencillo aún requerirían entre 300 y 600 megabytes.
Probaron su marco entrenando un modelo de visión por computadora para reconocer personas en imágenes. Después de solo 10 minutos de entrenamiento, aprendió a completar con éxito la tarea. Su método pudo entrenar un modelo más de 20 veces más rápido que otros enfoques.
Después de demostrar el éxito de estas técnicas para los modelos de visión por computadora, los investigadores ahora quieren aplicarlas a los modelos de lenguaje y diferentes tipos de datos, como los datos de series temporales. Al mismo tiempo, quieren usar lo que están aprendiendo para reducir el tamaño de los modelos más grandes sin sacrificar la precisión, lo que podría ayudar a reducir la huella de carbono del entrenamiento de grandes modelos de aprendizaje automático.
“Personalizar/entrenar modelos de IA en un dispositivo, especialmente en controladores integrados, es un desafío abierto. Esta investigación del MIT no solo demostró con éxito las capacidades, sino que también abrió nuevas posibilidades para la privacidad de los dispositivos en tiempo real”, dijo Nilesh Jain, ingeniero senior de Intel que no participó en este trabajo. «Las innovaciones en la publicación tienen una aplicabilidad más amplia y estimularán nuevas investigaciones sobre el diseño conjunto de sistemas y algoritmos».
“El aprendizaje en el dispositivo es el próximo gran avance en el que estamos trabajando para el borde inteligente conectado. El grupo del profesor Song Han ha logrado grandes avances en la demostración de la eficacia de los dispositivos de última generación para la formación», añadió Jilei Hou, vicepresidente y director de investigación de IA de Qualcomm. «Qualcomm ha otorgado a su equipo una beca de innovación por más innovación y avances en esta área».
Este trabajo está financiado por la Fundación Nacional de Ciencias, MIT-IBM Watson AI Lab, MIT AI Hardware Program, Amazon, Intel, Qualcomm, Ford Motor Company y Google.
[ad_2]