[ad_1]
La IA generativa está recibiendo mucha atención por su capacidad para crear texto e imágenes. Pero estos medios representan sólo una fracción de los datos que proliferan en nuestra sociedad actual. Los datos se generan cada vez que un paciente pasa por un sistema médico, una tormenta afecta un vuelo o una persona interactúa con una aplicación de software.
El uso de IA generativa para crear datos sintéticos realistas en torno a estos escenarios puede ayudar a las organizaciones a tratar a los pacientes de manera más efectiva, redirigir aviones o mejorar las plataformas de software, especialmente en escenarios donde los datos del mundo real son limitados o sensibles.
Durante tres años, DataCebo, empresa derivada del MIT, ha estado ofreciendo un sistema de software generativo llamado Synthetic Data Vault para ayudar a las organizaciones a crear datos sintéticos con fines como probar aplicaciones de software y entrenar modelos de aprendizaje automático.
Synthetic Data Vault (SDV) se ha descargado más de un millón de veces y más de 10.000 científicos de datos han utilizado la biblioteca de código abierto para generar datos tabulares sintéticos. Los fundadores, el científico investigador principal Kalyan Veeramachaneni y la alumna Neha Patki ’15, SM ’16, creen que el éxito de la empresa se basa en la capacidad de SDV para revolucionar las pruebas de software.
SDV se vuelve viral
En 2016, el grupo de Veeramachaneni en Data to AI Lab presentó un conjunto de herramientas de inteligencia artificial generativa de código abierto diseñadas para ayudar a las organizaciones a crear datos sintéticos que coincidan con las propiedades estadísticas de los datos reales.
Las empresas pueden utilizar datos sintéticos en lugar de información confidencial en los programas y al mismo tiempo preservar las relaciones estadísticas entre los puntos de datos. Las empresas también pueden utilizar datos sintéticos para ejecutar software nuevo mediante simulaciones para ver cómo funciona antes de lanzarlo al público.
El grupo de Veeramachaneni encontró el problema porque trabajaba con empresas que querían compartir sus datos con fines de investigación.
«El MIT le ayuda a identificar todos estos casos de uso diferentes», explica Patki. «Trabajan con empresas financieras y de atención sanitaria, y todos estos proyectos son útiles para formular soluciones intersectoriales».
En 2020, los investigadores fundaron DataCebo para desarrollar más funciones SDV para organizaciones más grandes. Desde entonces, los casos de uso han sido tan impresionantes como diversos.
Por ejemplo, el nuevo simulador de vuelo de DataCebo permite a las aerolíneas planificar eventos climáticos raros de una manera que no sería posible solo con datos históricos. En otra aplicación, los usuarios de SDV sintetizaron registros médicos para predecir los resultados de salud de los pacientes con fibrosis quística. Un equipo de Noruega utilizó recientemente SDV para crear datos sintéticos de estudiantes para evaluar si varias políticas de admisión eran meritocráticas y libres de sesgos.
En 2021, la plataforma de ciencia de datos Kaggle organizó un concurso para que los científicos de datos crearan conjuntos de datos sintéticos utilizando SDV para evitar el uso de datos propietarios. Participaron alrededor de 30.000 científicos de datos, que desarrollaron soluciones y predijeron resultados basados en los datos del mundo real de la empresa.
Y a medida que DataCebo ha crecido, se ha mantenido fiel a sus raíces en el MIT: todos los empleados actuales de la empresa son ex alumnos del MIT.
Prueba del software del supercargador
Aunque sus herramientas de código abierto se utilizan para una variedad de casos de uso, la empresa se centra en ampliar su presencia en el espacio de pruebas de software.
«Se necesitan datos para probar estas aplicaciones de software», afirma Veeramachaneni. “Tradicionalmente, los desarrolladores escriben scripts manualmente para crear datos sintéticos. Los modelos generativos creados con SDV le permiten aprender de una muestra de datos recopilados y luego muestrear una gran cantidad de datos sintéticos (que tienen las mismas propiedades que los datos reales), o crear escenarios específicos y casos extremos y utilizar los datos para probar su aplicación. .”
Por ejemplo, si un banco quisiera probar un programa que rechazara transferencias de cuentas sin saldo, tendría que simular muchas cuentas procesando transacciones al mismo tiempo. Hacer esto con datos creados manualmente llevaría mucho tiempo. Los modelos generativos de DataCebo permiten a los clientes crear cualquier caso límite que quieran probar.
«Las industrias suelen disponer de datos que son algo confidenciales», afirma Patki. «Cuando estás en un área con datos confidenciales, a menudo te enfrentas a regulaciones Incluso si no existen regulaciones legales, a las empresas les interesa decidir cuidadosamente quién tiene acceso a qué y cuándo. Entonces, desde una perspectiva de protección de datos, los datos sintéticos siempre son mejores”.
Escalar datos sintéticos
Veeramachaneni cree que DataCebo está avanzando en el área de los llamados datos empresariales sintéticos, es decir, datos generados a partir del comportamiento de los usuarios en las aplicaciones de software de las grandes empresas.
«Los datos corporativos de este tipo son complejos y, a diferencia de los datos de voz, no están disponibles universalmente», afirma Veeramachaneni. “Cuando la gente usa nuestro software disponible públicamente y nos informa si funciona en un patrón particular, aprendemos muchos de estos patrones únicos y así podemos mejorar nuestros algoritmos. Desde una perspectiva, estamos construyendo un corpus de estos patrones complejos que está fácilmente disponible para el lenguaje y las imágenes. “
DataCebo también ha lanzado recientemente funciones para mejorar la utilidad de SDV, incluidas herramientas para evaluar el «realismo» de los datos generados, llamada biblioteca SDMetrics, así como una forma de comparar el rendimiento del modelo llamada SDGym.
«Se trata de garantizar que las empresas confíen en estos nuevos datos», afirma Veeramachaneni. “[Our tools offer] datos sintéticos programables, lo que significa que permitimos a las empresas aportar sus conocimientos e intuiciones específicas para crear modelos más transparentes”.
A medida que las empresas de todos los sectores se apresuran a adoptar la IA y otras herramientas de ciencia de datos, DataCebo, en última instancia, les ayuda a hacerlo de una manera más transparente y responsable.
«En los próximos años, los datos sintéticos de los modelos generativos cambiarán todo el trabajo con datos», afirma Veeramachaneni. «Creemos que el 90 por ciento de las operaciones comerciales se pueden realizar con datos sintéticos».
[ad_2]