Un sistema de aprendizaje automático basado en la luz podría producir modelos de lenguaje grandes más potentes y eficientes

[ad_1]

ChatGPT ha aparecido en los titulares de todo el mundo por su capacidad para escribir ensayos, correos electrónicos y códigos informáticos basándose en algunas indicaciones del usuario. Ahora, un equipo liderado por el MIT está informando sobre un sistema que podría conducir a programas de aprendizaje automático varios órdenes de magnitud más poderosos que el que está detrás de ChatGPT. El sistema que están desarrollando también podría utilizar varios órdenes de magnitud menos de energía que las supercomputadoras de última generación que impulsan los modelos de aprendizaje automático actuales.

En la edición del 17 de julio de fotónica de la naturalezaLos investigadores informan de la primera demostración experimental del nuevo sistema, que basa sus cálculos en el movimiento de la luz, en lugar de los electrones, utilizando cientos de láseres de escala micrométrica. Con el nuevo sistema, el equipo informa una mejora de más de 100 veces en la eficiencia energética y una mejora de 25 veces en la densidad computacional, una medida del rendimiento de un sistema, en comparación con las computadoras digitales de aprendizaje automático de última generación.

hacia el futuro

En el documento, el equipo también cita «sustancialmente varios órdenes de magnitud para mejoras futuras». Como resultado, continúan los autores, «la técnica abre un camino hacia procesadores optoelectrónicos a gran escala para acelerar las tareas de aprendizaje automático desde los centros de datos hasta los dispositivos de borde distribuidos». En otras palabras, se podrían habilitar teléfonos móviles y otros dispositivos pequeños para ejecutar programas. que actualmente sólo se puede calcular en grandes centros de datos.

Dado que los componentes del sistema pueden fabricarse utilizando procesos de fabricación que ya se utilizan hoy en día, «esperamos que pueda ampliarse para uso comercial dentro de unos años», afirma Zaijun Chen, primer autor, que realizó el trabajo como becario postdoctoral en el Laboratorio de Investigación de Electrónica (RLE) del MIT y ahora es profesor asistente en la Universidad del Sur de California.

Dirk Englund, profesor asociado en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación del MIT y líder del trabajo, dice: «ChatGPT tiene un tamaño limitado por la potencia de las supercomputadoras actuales. Simplemente no tiene sentido económico entrenar modelos que sean mucho más grandes. Nuestra nueva tecnología podría permitir el salto a modelos de aprendizaje automático que de otro modo no serían posibles en un futuro próximo”.

Y continúa: «No sabemos qué capacidades tendrá el ChatGPT de próxima generación cuando sea 100 veces más potente, pero ese es el régimen de descubrimiento que este tipo de tecnología puede permitir». Englund también dirige el Laboratorio de Fotónica Cuántica del MIT y está afiliado a RLE y al Laboratorio de Investigación de Materiales.

Un tamborileo de progreso

El trabajo actual es el último de una serie de avances que Englund y muchos de sus colegas han logrado en los últimos años. Por ejemplo, en 2019 un equipo de Englund informó sobre el trabajo teórico que condujo a la demostración actual. El primer autor de este artículo, Ryan Hamerly, ahora de RLE y NTT Research Inc., también es autor del artículo actual.

Otros coautores del presente fotónica de la naturaleza Los oradores son Alexander Sludds, Ronald Davis, Ian Christen, Liane Bernstein y Lamia Ateshian, todos de RLE; y Tobias Heuser, Niels Heermeier, James A. Lott y Stephan Reitzenstein de la Universidad Técnica de Berlín.

Las redes neuronales profundas (DNN) como la que está detrás de ChatGPT se basan en modelos gigantes de aprendizaje automático que simulan cómo el cerebro procesa la información. Sin embargo, incluso a medida que crece el campo del aprendizaje automático, las tecnologías digitales detrás de las DNN actuales están llegando a sus límites. Además, requieren grandes cantidades de energía y se limitan en gran medida a grandes centros de datos. Esto motiva el desarrollo de nuevos paradigmas informáticos.

El uso de luz en lugar de electrones para realizar cálculos DNN tiene el potencial de superar los cuellos de botella actuales. Por ejemplo, los cálculos mediante óptica consumen mucha menos energía que los cálculos mediante electrónica. Además, se pueden “conseguir anchos de banda mucho mayores” o calcular densidades con la óptica, afirma Chen. La luz puede transportar mucha más información en un área mucho más pequeña.

Sin embargo, las redes neuronales ópticas (ONN) actuales enfrentan desafíos importantes. Por ejemplo, consumen mucha energía porque no pueden convertir de manera eficiente los datos entrantes, que se basan en energía eléctrica, en luz. Además, los componentes implicados son voluminosos y ocupan mucho espacio. Y si bien los ONN son bastante buenos en cálculos lineales como la suma, no son particularmente buenos en cálculos no lineales como la multiplicación y las declaraciones «si».

En el trabajo actual, los investigadores presentan una arquitectura compacta que, por primera vez, resuelve todos estos desafíos y otros dos al mismo tiempo. Esta arquitectura se basa en conjuntos de láseres emisores de superficie verticales (VCSEL) de última generación, una tecnología relativamente nueva utilizada en aplicaciones como la detección remota lidar y la impresión láser. Los VCEL individuales reportados en fotónica de la naturaleza El artículo fue desarrollado por el grupo Reitzenstein de la Universidad Técnica de Berlín. «Este fue un proyecto comunitario que no habría sido posible sin ellos», dice Hamerly.

Logan Wright, profesor asistente de la Universidad de Yale que no participó en la investigación actual, comenta: “El trabajo de Zaijun Chen et al. Es inspirador y me alienta a mí, y probablemente a muchos otros investigadores en este campo, el hecho de que los sistemas basados en matrices VCSEL moduladas podrían ser una ruta viable hacia redes neuronales ópticas de alta velocidad y gran escala. Por supuesto, el estado de la técnica todavía está lejos de la escala y el costo que se requerirían para dispositivos prácticos, pero soy optimista sobre lo que se puede lograr en los próximos años, especialmente teniendo en cuenta el potencial de aceleración de estos sistemas. los sistemas de inteligencia artificial muy grandes y costosos, como los que se utilizan en los populares sistemas textuales «GPT» como ChatGPT».

Chen, Hamerly y Englund han presentado una patente para el trabajo, que fue financiado por la Oficina de Investigación del Ejército de EE. UU., NTT Research, el Programa de Becas para Graduados en Ciencias e Ingeniería de la Defensa Nacional de EE. UU., la Fundación Nacional de Ciencias de EE. UU. y la Fundación de Ciencias Naturales e Ingeniería. Consejo de Investigación de Canadá y Fundación Volkswagen.

[ad_2]

Subscribe to Updates

What's Hot

Un sistema de aprendizaje automático basado en la luz podría producir modelos de lenguaje grandes más potentes y eficientes | Noticias del MIT

Related Posts