El fantasma de la máquina

[ad_1]

1 de noviembre de 2023

(noticias nanowerk) En un período de tiempo sorprendentemente corto, la inteligencia artificial ha pasado de ser un esfuerzo académico a una herramienta práctica. Los modelos visuales como DALL·E pueden crear imágenes en cualquier estilo deseado, mientras que los modelos de lenguaje grande (LLM) como Chat GPT pueden generar ensayos, escribir códigos de computadora y sugerir rutas de viaje. Si se les pide, pueden incluso corregir sus propios errores.

Las tesis centrales

El investigador Fabian Offert examina las capacidades y limitaciones de grandes modelos de lenguaje como Chat GPT y cuestiona la idea de que tengan un “modelo mundial” integral de computación.

Si bien Chat GPT puede codificar una cadena de Markov funcional y simular su salida a nivel de palabra, tiene dificultades para simular la salida letra por letra, lo que indica lagunas en su comprensión.

Offert sostiene que debido a la naturaleza evolutiva de estos modelos, el estudio de las capacidades de la IA es más una “entrevista cualitativa” que un experimento controlado.

El investigador destaca el papel cada vez mayor de las humanidades y las ciencias sociales en la comprensión de la IA, ya que las preguntas sobre estas tecnologías son cada vez más filosóficas.

Dado que la IA influye en campos que van desde la redacción de ensayos hasta la astronomía, Offert insiste en que comprender los mecanismos detrás de estos modelos es crucial por razones tanto epistemológicas como prácticas.

Investigación

A medida que los modelos de IA se vuelven más sofisticados y ubicuos, es importante comprender qué son estas entidades, qué pueden hacer y cómo piensan. Estos modelos se parecen cada vez más a los humanos y, sin embargo, son muy diferentes de nosotros. Esta combinación única hace que sea interesante pensar en la IA.

Por ejemplo, los grandes modelos de IA se entrenan con enormes cantidades de información. Sin embargo, no está claro hasta qué punto entienden estos datos como un sistema de conocimiento coherente. Fabian Offert de UC Santa Barbara explora esta idea en un breve artículo en la antología ChatGPT and Other Nonsense Machines – Conversations with AI. Lo que una inteligencia artificial muestra en la pantalla refleja su representación interna del mundo, que puede ser muy diferente a la nuestra. (Una ilustración de Midjourney con el mensaje: «Una computadora con nubes de ecuaciones y símbolos)»

«La gente afirma que los grandes modelos de lenguaje, y Chat GPT en particular, tienen lo que se llama un ‘modelo mundial’ de ciertas cosas, incluida la computación», dijo Offert, profesor asistente de humanidades digitales. Es decir, no es sólo un conocimiento superficial lo que las palabras de codificación suelen aparecer juntas, sino una comprensión más completa de la computación en sí.

Incluso un simple programa de computadora puede generar texto persuasivo usando una cadena de Markov, un algoritmo simple que usa la probabilidad para predecir el siguiente token en una secuencia basándose en lo que vino antes. El tipo de salida depende del texto de referencia y del tamaño del token (por ejemplo, una letra, una palabra o una oración). Con los parámetros correctos y la fuente de capacitación adecuada, esto puede producir un texto natural que imite el estilo del ejemplo de capacitación.

Pero los LLM demuestran habilidades que uno no esperaría si simplemente predijeran la siguiente palabra en una secuencia. Por ejemplo, puede crear un código informático novedoso y funcional. Los lenguajes formales, al igual que los lenguajes informáticos, son mucho más rígidos y bien definidos que los lenguajes naturales que hablamos. Esto dificulta la navegación holística porque el código debe ser completamente correcto para analizarse. No hay margen de maniobra. Los LLM parecen tener memoria contextual, algo que no tienen las cadenas de Markov simples y los algoritmos de predicción. Y esa memoria conduce a algunos de sus comportamientos novedosos, incluida su capacidad para escribir código.

Offert decidió explotar el cerebro de Chat GPT pidiéndole que realizara algunas tareas. Primero, le pidió que programara una cadena de Markov que generaría un texto basado en la novela Eugenio Onegin de Alexander Pushkin. Después de algunos comienzos en falso y algunas persuasiones, la IA produjo un código Python funcional para una aproximación de la cadena de Markov a nivel de palabra del libro.

Luego le pidió que simplemente simulara la salida de una cadena de Markov. Si Chat GPT realmente tuviera un modelo computacional que fuera más allá de la mera predicción estadística, Offert dice que debería poder estimar el resultado de un programa sin ejecutarlo. Descubrió que la IA podía simular una cadena de Markov a nivel de palabras y frases. Sin embargo, no pudo estimar la producción de una cadena de Markov letra por letra. «Deberíamos obtener un revoltijo de letras algo coherente, pero ese no es el caso», dijo.

Este resultado le pareció bastante extraño a Offert. Chat GPT claramente tenía una comprensión más sofisticada de la programación, ya que codificó con éxito una cadena de Markov durante la primera tarea. Sin embargo, si realmente tiene un concepto computacional, debería resultarle bastante fácil predecir una cadena de Markov a nivel de letras. Esto requiere muchos menos cálculos, memoria y esfuerzo que predecir el resultado a nivel de palabras, lo cual era posible. Sin embargo, existen otras formas de lograr la predicción a nivel de palabras, simplemente porque los LLM son intrínsecamente buenos generando palabras.

«Con base en este resultado, diría que Chat GPT no tiene un modelo de cálculo global», dijo Offert. «No es una simulación de una vieja máquina de Turing con acceso a todas las capacidades informáticas».

Sin embargo, el objetivo de Offert en este ensayo era simplemente plantear preguntas, no responderlas. Simplemente charló con el programa, que no es una metodología adecuada para un estudio científico. Es subjetivo, incontrolable, no reproducible y el programa se puede actualizar de un día para otro. «Se parece más a una entrevista cualitativa que a un experimento controlado», explicó. Sólo estoy examinando la caja negra, por así decirlo.

Offert quiere desarrollar una mejor comprensión de estas nuevas entidades que han surgido en los últimos años. “Mi interés es realmente epistemológico”, dijo. “¿Qué podemos saber con estas cosas? ¿Y qué podemos saber sobre estas cosas?” Por supuesto, estas dos preguntas están indisolublemente ligadas.

Estos temas despiertan cada vez más el interés de ingenieros e informáticos. «Las preguntas que los investigadores técnicos se hacen sobre la IA son, en esencia, cada vez más cuestiones de humanidades», dijo Offert. «Se trata de conocimientos filosóficos fundamentales, como lo que significa tener conocimiento sobre el mundo y cómo representamos el conocimiento sobre el mundo».

Por este motivo, Offert cree que las humanidades y las ciencias sociales deberían desempeñar un papel más activo en el desarrollo de la IA. Su papel podría ampliarse para informar cómo se desarrollan estos sistemas, cómo se utilizan y cómo el público interactúa con ellos.

Las diferencias entre la inteligencia artificial y la humana son quizás incluso más fascinantes que las similitudes. «Lo extraño de estos sistemas es en realidad lo interesante de ellos», dijo Offert. Por ejemplo, en un artículo anterior demostró que la forma en que la IA categoriza y reconoce imágenes puede ser bastante extraña desde nuestra perspectiva. «Podemos tener cosas increíblemente interesantes y complejas con comportamientos emergentes que no afectan sólo a las personas máquinas». En un estudio anterior, Offert miró detrás de la cortina de un modelo visual. Esta imagen se acerca a su idea de las gafas de sol. (Imagen: Fabián Offert)

En última instancia, Offert busca comprender cómo estos modelos representan el mundo y toman decisiones. Porque tienen conocimiento del mundo, nos asegura: conexiones extraídas de sus datos de entrenamiento. Más allá del interés epistemológico, el tema también tiene importancia práctica para conciliar las motivaciones de la IA con las de sus usuarios humanos.

A medida que herramientas como Chat GPT se generalizan, acercan disciplinas que antes eran independientes. Por ejemplo, la escritura en papel y la reducción de ruido en astronomía están ahora vinculadas a la misma tecnología subyacente. Según Offert, esto significa que debemos mirar más de cerca la tecnología misma como una forma fundamentalmente nueva de generar conocimiento.

Con una subvención de tres años de la Fundación Volkswagen para análisis forense de IA, Offert actualmente investiga la cultura visual de las máquinas. Los modelos de imágenes han crecido tanto y han visto tantos datos, explicó, que han desarrollado idiosincrasias basadas en su material de entrenamiento. A medida que estas herramientas se generalicen, sus peculiaridades también afectarán la cultura humana. Por lo tanto, Offert cree que es importante comprender qué sucede bajo el capó de estos modelos de IA.

«Es un momento emocionante para este trabajo», dijo. «No me habría imaginado esto hace cinco años.»

[ad_2]

Subscribe to Updates

What's Hot

Las tesis centrales

Investigación

Related Posts