[ad_1]
//php echo do_shortcode(‘[responsivevoice_button voice=»US English Male» buttontext=»Listen to Post»]’) ?>
SANTA CLARA, CALIFORNIA – «La revolución que hemos experimentado en el texto tendrá un impacto en las imágenes», afirmó el renombrado científico informático Andrew Ng en un discurso de apertura que pronunció recientemente en la Cumbre de Hardware de IA aquí.
Ng demostró una técnica que llamó “indicación visual”. Utilizó la interfaz de usuario de Landing.ai para pedirle a un agente de inteligencia artificial que reconociera objetos en imágenes garabateando el cursor del mouse sobre el objeto. En apenas unos instantes demostró en el escenario cómo le pedía al agente que reconociera a un perro y cómo contaba células en imágenes de una placa de Petri.
«En [computer vision conference] CVPR, había algo en el aire en la visión por computadora, al igual que había algo en el aire en las conferencias de PNL hace tres años”, dijo Ng a la audiencia. “El progreso fue impulsado por grandes redes de transformadores. Esto se aplica al texto con LLM. [large language models] Esto también se aplica cada vez más a la visión. Aumentar el entrenamiento con datos sin etiquetar y aumentar el tamaño del modelo ayuda con esto. [vision] Los modelos generalizan”.
Posteriormente, Ng le dijo a EE Times que el mundo comenzará a ver las mismas tendencias actuales para los LLM en visión artificial a medida que las grandes redes de transformadores en forma de modelos de visión grande (LVM) se vuelvan más comunes para la visión artificial.
«Sí, vemos mucho entusiasmo por los LVM, pero la tecnología para los LVM aún no está madura», afirmó.
Si bien es fácil generar y comprender tokens de texto, y el texto es lineal (un token sigue a otro), es menos fácil comprender las imágenes con atención. Los parches de una imagen se pueden utilizar como tokens, pero ¿en qué orden pertenecen los parches? ¿Qué manchas escondes y cuáles predices? ¿Y qué pasa con los vídeos que añaden otra dimensión de complejidad?
«En el espacio del texto, había arquitecturas de codificador y decodificador, pero finalmente la mayoría de la gente optó por arquitecturas de decodificador puro», dijo Ng. “Hay muchas decisiones que tomas y [LVMs] están en una etapa anterior de toma de decisiones”.
![Análisis de Andrew Ng sobre la próxima ola de IA: la revolución de la visión por computadora Análisis de Andrew Ng sobre la próxima ola de IA: la revolución de la visión por computadora.](https://www.eetimes.com/wp-content/uploads/text-and-vision-slide.jpg?w=640&is-pending-load=1#038;resize=640%2C319)
Una pregunta sin respuesta es: ¿De dónde provienen los datos para entrenar grandes LVM? Se sabe que los mayores LLM en generación de textos dependen de un enorme corpus de Internet para su formación. Internet puede proporcionar una gran cantidad de datos de entrenamiento no estructurados y sin etiquetar. Luego se puede utilizar una pequeña cantidad de datos etiquetados para realizar ajustes y ajustes de comandos.
Vision AI normalmente requiere datos etiquetados para el entrenamiento, pero ese no siempre es el caso, dijo Ng.
Las técnicas que requieren que se oculten partes de las imágenes y que la red neuronal rellene los huecos pueden ayudar a entrenar redes de visión con datos sin etiquetar.
Otra posibilidad podrían ser los datos sintéticos, aunque hasta ahora ha resultado demasiado costoso para las IA de generación de texto generar los billones de tokens de texto necesarios para entrenar un modelo ChatGPT.
«Si desea que un modelo imite el estilo de un LLM en particular, podría hacerlo con millones de tokens, tal vez incluso cientos de miles, para que sea más viable», dijo Ng.
A medida que los Transformers dominen la IA de voz y pasen a la IA visual, ¿cree Ng que los Transformers eventualmente se convertirán en la arquitectura de red neuronal de facto para todas las formas de IA?
“No, no lo creo”, dijo. «Los transformadores son una herramienta fantástica en nuestra caja de herramientas, pero no creo que sean nuestra única herramienta».
Ng señaló que si bien la IA generativa ha hecho maravillas con las masas de datos no estructurados disponibles, no ha afectado nuestra capacidad para procesar datos estructurados donde se pueden obtener conocimientos útiles para las aplicaciones actuales. Los datos estructurados (como columnas de números en una hoja de cálculo) no son adecuados para los implementadores y aún requieren su propio enfoque de IA.
La tendencia actual de los LLM es que cuanto más grandes sean, mejor podrán generalizarse. Pero, ¿qué tamaño pueden alcanzar los LLM? ¿Existe un límite práctico?
«No creo que hayamos agotado la escala como receta», dijo Ng. «Pero cada vez es más difícil, así que creo que hay otras formas de innovar».
Ng dijo que en muchos casos de uso, un modelo de 13 mil millones de parámetros funcionará tan bien como un modelo de 175 mil millones de parámetros, y para algo simple como la revisión gramatical, un modelo de 3 mil millones de parámetros que se ejecuta en una computadora portátil podría ejecutarse, tal vez funcionar sea suficiente.
Mil millones de parámetros podrían ser suficientes para el procesamiento de texto básico, como la clasificación de sentimientos, que podría ejecutarse en un dispositivo móvil, mientras que «cantidades decentes de conocimiento sobre el mundo» requieren decenas de miles de millones de parámetros y cientos de miles de millones de parámetros para razonamientos más complejos.
«Existe un posible futuro en el que veremos más aplicaciones ejecutándose en el borde», afirmó. «Recurrimos a la nube cuando realizamos una tarea realmente compleja que realmente requiere un modelo de 100 mil millones de parámetros, pero creo que muchas de las tareas podrían realizarse con modelos de tamaño más modesto».
Los transformadores y el mecanismo de atención en el que se basan se inventaron hace seis años, pero los fabricantes de hardware han tardado en tomar medidas para especializar sus aceleradores para esta importante carga de trabajo.
¿Hemos llegado al punto en el que la arquitectura del transformador está empezando a madurar o deberíamos esperar una mayor evolución de esta carga de trabajo en el futuro?
«Está duro [to know]», dijo. «El documento original es de 2017… Me decepcionaría un poco si esta fuera la arquitectura final, pero también estoy dispuesto a sorprenderme… [Attention] Funciona muy bien. Los cerebros biológicos y digitales son muy diferentes, pero con la inteligencia biológica parece que nuestros cerebros son una colección de cosas que la evolución ha unido, pero funciona bastante bien. Las redes neuronales funcionaban bastante bien antes de los transformadores. ¡Y piense en cuánto tiempo existe la arquitectura x86!
[ad_2]