[ad_1]
En 2023, OpenAI dijo al Parlamento británico que era “imposible” entrenar modelos líderes de IA sin utilizar material protegido por derechos de autor. Esta es una postura popular en el mundo de la IA, donde OpenAI y otros actores líderes han utilizado materiales recopilados en línea para entrenar los modelos que impulsan los chatbots y los generadores de imágenes, lo que provocó una ola de demandas por infracción de derechos de autor.
Dos anuncios del miércoles demuestran que se pueden entrenar modelos lingüísticos de gran tamaño sin el uso no autorizado de materiales protegidos por derechos de autor.
Un grupo de investigadores respaldado por el gobierno francés ha publicado lo que se cree que es el conjunto de datos de entrenamiento de IA más grande hecho enteramente de texto de dominio público. Y la organización sin fines de lucro Fairly Trained anunció que otorgó su primera certificación para un modelo de lenguaje grande creado sin infracción de derechos de autor. Esto muestra que una tecnología como la que hay detrás de ChatGPT se puede desarrollar de una manera diferente a la controvertida norma de la industria de la IA.
«No existe ninguna razón fundamental por la que alguien no pueda capacitar de manera justa a un graduado de LLM», dice Ed Newton-Rex, director ejecutivo de Fairly Trained. Fundó la organización sin fines de lucro en enero de 2024 después de dejar su puesto de liderazgo en la startup de imágenes Stability AI porque no estaba de acuerdo con su política de eliminar contenido sin permiso.
Fairly Trained ofrece certificación para empresas que quieran demostrar que han entrenado sus modelos de IA con datos de su propiedad, que tienen licencia o que son de dominio público. Cuando se lanzó la organización sin fines de lucro, algunos críticos señalaron que aún no había encontrado un modelo de lenguaje grande que satisficiera estas necesidades.
Fairly Trained anunció hoy que ha certificado su primer modelo lingüístico importante. Se llama KL3M y fue desarrollado por la consultora de tecnología legal 273 Ventures, con sede en Chicago, utilizando un conjunto de datos de capacitación seleccionados de documentos legales, financieros y regulatorios.
La cofundadora de la empresa, Jillian Bommarito, dice que la decisión de formar a KL3M de esta manera se debió a que los clientes «aversos al riesgo» de la empresa, como los bufetes de abogados. «Les preocupa la procedencia y necesitan saber que los resultados no se basan en datos manipulados», afirma. «No confiamos en el uso legítimo». Los clientes estaban interesados en utilizar la IA generativa para tareas como resumir documentos legales y redactar contratos, pero no querían verse atrapados en litigios de propiedad intelectual como OpenAI, Stability AI y otros.
Bommarito dice que 273 Ventures no había trabajado antes en un modelo de lenguaje grande, pero decidió entrenar uno como experimento. «Nuestra prueba es si esto es posible», afirma. La empresa ha creado su propio conjunto de datos de formación, Kelvin Legal DataPack, que contiene miles de documentos legales que han sido revisados para comprobar el cumplimiento de los derechos de autor.
Aunque el conjunto de datos es pequeño en comparación con los compilados por OpenAI y otros que han rastreado Internet en masa (alrededor de 350 mil millones de tokens o unidades de datos), Bommarito dice que el modelo KL3M funcionó mucho mejor de lo esperado, según lo que encontraron en exactitud de los resultados del modelo. Los datos han sido previamente verificados. «Tener datos limpios y de alta calidad puede significar no tener que hacer que el modelo sea tan grande», afirma. La curación de un conjunto de datos puede ayudar a especializar un modelo de IA terminado para la tarea para la que fue diseñado. 273 Ventures ahora ofrece lugares en la lista de espera para los clientes que deseen comprar acceso a estos datos.
Hoja limpia
Las empresas que quieran emular KL3M podrían recibir más ayuda en el futuro en forma de conjuntos de datos libres de infracciones y de libre acceso. El miércoles, los investigadores publicaron lo que dicen es el conjunto de datos de modelos de lenguaje de IA más grande disponible, que consiste enteramente en contenido de dominio público. Common Corpus, como se le llama, es una colección de texto aproximadamente del mismo tamaño que los datos utilizados para entrenar el modelo de generación de texto GPT-3 de OpenAI, y se ha publicado en la plataforma de inteligencia artificial de código abierto Hugging Face.
El conjunto de datos se creó a partir de fuentes como periódicos de dominio público digitalizados por la Biblioteca del Congreso de Estados Unidos y la Biblioteca Nacional de Francia. Pierre-Carl Langlais, coordinador del proyecto Common Corpus, lo llama «un corpus lo suficientemente grande como para formar un LLM de vanguardia». Para decirlo en la gran jerga de la IA: el conjunto de datos contiene 500 millones de tokens. Se cree ampliamente que el modelo más poderoso de OpenAI se entrenó con billones.
[ad_2]