[ad_1]
Behrooz Tahmasebi, estudiante de posgrado del MIT en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) y afiliado del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL), estaba tomando un curso de matemáticas sobre ecuaciones diferenciales a fines de 2021 cuando surgió una chispa de inspiración. lo golpeó. En este curso aprendió por primera vez sobre la Ley de Weyl, que había sido formulada 110 años antes por el matemático alemán Hermann Weyl. Tahmasebi reconoció que podría haber tenido alguna relevancia para el problema informático con el que estaba luchando en ese momento, incluso si la conexión parecía, en la superficie, en el mejor de los casos, tenue. La ley de Weyl, en su opinión, proporciona una fórmula que mide la complejidad de la información o datos espectrales contenidos en las frecuencias fundamentales de un parche de tambor o de una cuerda de guitarra.
Al mismo tiempo, Tahmasebi estaba pensando en medir la complejidad de los datos de entrada a una red neuronal y se preguntaba si esta complejidad podría reducirse teniendo en cuenta algunas de las simetrías inherentes al conjunto de datos. Esta reducción podría, a su vez, facilitar y acelerar los procesos de aprendizaje automático.
La ley de Weyl, desarrollada aproximadamente un siglo antes del auge del aprendizaje automático, se ha aplicado tradicionalmente a situaciones físicas muy diferentes: por ejemplo, las vibraciones de una cuerda o el espectro de radiación electromagnética (cuerpo negro) emitida por un objeto calentado. Sin embargo, Tahmasebi creía que una versión adaptada de esta ley podría ser útil para resolver el problema de aprendizaje automático que perseguía. Y si el enfoque funciona, la recompensa podría ser significativa.
Habló con su asesora Stefanie Jegelka, profesora asociada de EECS y afiliada de CSAIL y del Instituto de Datos, Sistemas y Sociedad del MIT, quien pensó que definitivamente valía la pena explorar la idea. Desde la perspectiva de Tahmasebi, la ley de Weyl tenía que ver con medir la complejidad de los datos, y eso también se aplicaba a este proyecto. Pero la ley de Weyl en su forma original no decía nada acerca de la simetría.
Él y Jegelka ahora han logrado modificar la ley de Weyl para que se pueda tener en cuenta la simetría al evaluar la complejidad de un conjunto de datos. «Hasta donde yo sé», dice Tahmasebi, «esta es la primera vez que se utiliza la ley de Weyl para determinar cómo se puede mejorar el aprendizaje automático a través de la simetría».
El artículo que él y Jegelka escribieron recibió el premio “Spotlight” cuando se presentó en la Conferencia sobre Sistemas de Procesamiento de Información Neural de diciembre de 2023, ampliamente considerada la conferencia de aprendizaje automático más importante del mundo.
Este trabajo, comenta Soledad Villar, matemática aplicada de la Universidad Johns Hopkins, “demuestra que los modelos que satisfacen las simetrías del problema no sólo son correctos, sino que también pueden producir predicciones con errores más pequeños utilizando un pequeño conjunto de puntos de entrenamiento”. [This] Es particularmente importante en campos científicos como la química computacional, donde los datos de entrenamiento pueden ser escasos”.
En su trabajo, Tahmasebi y Jegelka examinaron cómo las simetrías o las llamadas «invarianzas» podrían beneficiar el aprendizaje automático. Por ejemplo, supongamos que el objetivo de una determinada computadora es seleccionar cada imagen que contenga el número 3. Esta tarea puede ser mucho más fácil y rápida si el algoritmo puede identificar el 3 independientemente de dónde esté colocado en la caja (ya sea exactamente en el medio o desplazado hacia un lado) y si está boca arriba, boca abajo u orientado en un ángulo aleatorio. Un algoritmo equipado con esta última capacidad puede aprovechar las simetrías de traslación y rotación, lo que significa que un 3 o cualquier otro objeto en sí mismo no se ve alterado por un cambio en su posición o por una rotación alrededor de cualquier eje. Se dice que es invariante a estos cambios. La misma lógica se puede aplicar a los algoritmos de identificación de perros o gatos. Un perro es un perro, se podría decir, independientemente de cómo esté incrustado en una imagen.
El objetivo de todo el ejercicio, según los autores, es explotar las simetrías intrínsecas de un conjunto de datos para reducir la complejidad de las tareas de aprendizaje automático. Esto, a su vez, puede conducir a una reducción en la cantidad de datos necesarios para el aprendizaje. Específicamente, el nuevo trabajo responde a la pregunta: ¿cuántos datos menos se necesitan para entrenar un modelo de aprendizaje automático si los datos contienen simetrías?
Hay dos formas de conseguir un beneficio o beneficio aprovechando las simetrías que existen. El primero tiene que ver con el tamaño de la muestra que se considera. Por ejemplo, imaginemos que tiene la tarea de analizar una imagen que tiene simetría especular, donde el lado derecho es una réplica exacta o una imagen especular del lado izquierdo. En este caso, no es necesario mirar cada píxel; Puede obtener toda la información que necesita a partir de la mitad de la imagen: una mejora de factor dos. Por otro lado, si la imagen se puede dividir en 10 partes idénticas, se puede conseguir una mejora de un factor de 10. Este efecto potenciador es lineal.
Para dar otro ejemplo, imaginemos que buscamos en un conjunto de datos y tratamos de encontrar secuencias de bloques con siete colores diferentes: negro, azul, verde, morado, rojo, blanco y amarillo. Tu trabajo será mucho más fácil si no te importa el orden en el que están dispuestos los bloques. Si el orden fuera importante, habría 5.040 combinaciones diferentes para buscar. Pero si solo está interesado en secuencias de bloques en las que aparecen los siete colores, entonces ha reducido la cantidad de cosas (o secuencias) que está buscando de 5,040 a solo una.
Tahmasebi y Jegelka descubrieron que es posible lograr un tipo diferente de ganancia, exponencial, que se puede lograr para simetrías que operan en muchas dimensiones. Esta ventaja está relacionada con la idea de que la complejidad de una tarea de aprendizaje crece exponencialmente con la dimensionalidad del espacio de datos. Por tanto, el uso de la simetría multidimensional puede generar un rendimiento desproporcionadamente alto. «Este es un nuevo artículo que básicamente nos dice que las simetrías de dimensiones superiores son más importantes porque pueden darnos una ganancia exponencial», dice Tahmasebi.
El artículo NeurIPS 2023 del que fue coautor con Jegelka contiene dos teoremas que han sido probados matemáticamente. «La primera frase muestra que se puede lograr una mejora en la complejidad de la muestra con el algoritmo general que proporcionamos», dice Tahmasebi. La segunda frase complementa la primera, añadió, “y muestra que éste es el mejor beneficio posible que se puede obtener; no se puede lograr nada más”.
Él y Jegelka han proporcionado una fórmula que predice la ganancia que se puede lograr con una simetría determinada en una aplicación determinada. Una ventaja de esta fórmula es su generalidad, señala Tahmasebi. «Funciona para cualquier simetría y cualquier espacio de entrada». No sólo funciona para simetrías que se conocen hoy, sino que también podría aplicarse en el futuro a simetrías que aún no se han descubierto. Esta última perspectiva no es demasiado descabellada, considerando que la búsqueda de nuevas simetrías ha sido durante mucho tiempo un foco importante en la física. Esto sugiere que la metodología introducida por Tahmasebi y Jegelka debería mejorar con el tiempo a medida que se encuentren más simetrías.
Según Haggai Maron, científico informático de Technion (el Instituto de Tecnología de Israel) y NVIDIA que no participó en el trabajo, el enfoque presentado en el artículo “se desvía significativamente de trabajos anteriores relacionados al adoptar una perspectiva geométrica y utilizar herramientas diferenciales”. Usos de la teoría”. Geometría. Esta contribución teórica proporciona apoyo matemático para el subcampo emergente del «aprendizaje profundo geométrico», que tiene aplicaciones en el aprendizaje de gráficos, datos 3D y más. El artículo contribuye a proporcionar una base teórica para un mayor desarrollo en esta área de investigación en rápido crecimiento”.
[ad_2]