El marco de código abierto de Giskard evalúa los modelos de IA antes de que entren en producción

[ad_1]

Giskard es una startup francesa que trabaja en un marco de prueba de código abierto para modelos de lenguaje grandes. Puede alertar a los desarrolladores sobre el riesgo de sesgo, vulnerabilidades de seguridad y la capacidad de un modelo para generar contenido dañino o tóxico.

Si bien hay mucho entusiasmo en torno a los modelos de IA, los sistemas de prueba de ML también se están convirtiendo rápidamente en un tema candente a medida que pronto se aplicará la regulación en la UE con la Ley de IA y en otros países. Las empresas que desarrollan modelos de IA deben demostrar que cumplen con un conjunto de reglas y mitigan los riesgos para evitar pagar fuertes multas.

Giskard es una startup de IA dedicada a la regulación y uno de los primeros ejemplos de una herramienta de desarrollo centrada específicamente en pruebas más eficientes.

“Anteriormente trabajé en Dataiku, específicamente en el área de integración de modelos de PNL. Y pude ver que cuando estaba a cargo de las pruebas, había cosas que no funcionaban bien cuando se aplicaban a casos prácticos y era muy difícil comparar el desempeño de los proveedores entre sí». Alex Combessie, cofundador y CEO de Giskard, me dijo.

El marco de pruebas de Giskard consta de tres componentes. En primer lugar, la empresa ha lanzado una biblioteca Python de código abierto que se puede integrar en un proyecto LLM, y en particular en proyectos de generación aumentada de recuperación (RAG). Ya es popular en GitHub y es compatible con otras herramientas del ecosistema ML como Hugging Face, MLFlow, Weights & Biases, PyTorch, Tensorflow y Langchain.

Después de la configuración inicial, Giskard le ayuda a crear un conjunto de pruebas que se utilizará periódicamente en su modelo. Estas pruebas cubren una amplia gama de temas como: B. Actuaciones, alucinaciones, desinformación, resultados no objetivos, sesgos, fugas de datos, generación de contenidos nocivos e inyecciones instantáneas.

“Y hay varios aspectos: está el aspecto del rendimiento, que es lo primero que le viene a la mente a un científico de datos. Pero el aspecto ético está desempeñando cada vez más un papel importante, tanto desde la perspectiva de la imagen de marca como desde una perspectiva regulatoria”, afirmó Combessie.

Luego, los desarrolladores pueden integrar las pruebas en el proceso de integración y entrega continuas (CI/CD) para que las pruebas se ejecuten cada vez que haya una nueva iteración en el código base. Por ejemplo, si algo anda mal, los desarrolladores reciben un informe de análisis en su repositorio de GitHub.

Las pruebas se personalizan según el caso de uso final del modelo. Las empresas que trabajan en RAG pueden dar a Giskard acceso a bases de datos vectoriales y repositorios de conocimientos para que el conjunto de pruebas sea lo más relevante posible. Por ejemplo, si creas un chatbot que puede proporcionarte información sobre el cambio climático basándose en el último informe del IPCC y utilizas un LLM de OpenAI, las pruebas de Giskard comprueban si el modelo puede generar información errónea sobre el cambio climático, que sea contradictoria, etc. .

Autor de la foto: giskard

El segundo producto de Giskard es un centro de calidad de IA que le ayuda a depurar un modelo de lenguaje grande y compararlo con otros modelos. Este centro de calidad forma parte de la oferta premium de Giskard. La startup espera crear en el futuro documentación que demuestre que un modelo cumple con la normativa.

“Estamos empezando a vender AI Quality Hub a empresas como Banque de France y L’Oréal, para ayudarlas a solucionar problemas y encontrar la causa de los errores. En el futuro albergaremos aquí todas las funciones regulatorias”, afirmó Combessie.

El tercer producto de la empresa se llama LLMon. Es una herramienta de seguimiento en tiempo real que puede evaluar las respuestas del LLM a los problemas más comunes (toxicidad, alucinaciones, verificación de hechos, etc.) antes de enviar la respuesta al usuario.

Actualmente, trabaja con empresas que utilizan las API y LLM de OpenAI como modelo base, pero la empresa está trabajando en integraciones con Hugging Face, Anthropic, etc.

Regular los casos de uso

Hay diferentes formas de regular los modelos de IA. Según las conversaciones con personas del ecosistema de IA, aún no está claro si la ley de IA se aplicará a los modelos fundamentales de OpenAI, Anthropic, Mistral y otros, o simplemente a casos de uso aplicados.

En el último caso, Giskard parece estar particularmente bien posicionado para advertir a los desarrolladores sobre el posible uso indebido de LLM enriquecidos con datos externos (o, como lo llaman los investigadores de IA, recuperación-generación aumentada, RAG).

Actualmente trabajan en Giskard 20 personas. «Estamos viendo una clara adaptación al mercado entre los clientes de LLM, por lo que aproximadamente duplicaremos el tamaño del equipo para ser el mejor antivirus de LLM del mercado», dijo Combessie.

[ad_2]

Subscribe to Updates

What's Hot

El marco de código abierto de Giskard evalúa los modelos de IA antes de que entren en producción

Regular los casos de uso

Related Posts