[ad_1]
La síntesis de voz ha avanzado mucho desde el juguete Speak & Spell de 1978, que alguna vez impresionó a la gente con su capacidad de vanguardia para leer palabras usando una voz electrónica. Utilizando modelos de inteligencia artificial de aprendizaje profundo, el software ahora no solo puede crear voces que suenen realistas, sino también imitar de manera convincente voces existentes utilizando pequeñas muestras de audio.
Con eso en mente, OpenAI anunció esta semana Voice Engine, un modelo de inteligencia artificial de texto a voz para crear voces sintéticas basadas en un segmento de audio grabado de 15 segundos. En su sitio web se proporcionaron muestras de audio del Voice Engine en acción.
Una vez que se clona una voz, un usuario puede ingresar texto en el motor de voz y recibir un resultado de voz generado por IA. Pero OpenAI no está preparado para lanzar ampliamente su tecnología. La compañía originalmente planeó lanzar un programa piloto para que los desarrolladores se registraran en la API Voice Engine a principios de este mes. Pero después de una cuidadosa consideración de las implicaciones éticas, la empresa decidió reducir sus ambiciones por el momento.
«De acuerdo con nuestro enfoque hacia la seguridad de la IA y nuestros compromisos voluntarios, actualmente elegimos lanzar esta tecnología en una versión preliminar, pero no de manera general», escribe la compañía. «Esperamos que esta vista previa de Voice Engine destaque su potencial y motive la necesidad de fortalecer la resiliencia de la sociedad ante los desafíos que presentan modelos generativos cada vez más convincentes».
La tecnología de clonación de voz en general no es particularmente nueva: a partir de 2022, existen varios modelos de síntesis de voz con IA y la tecnología está activa en la comunidad de código abierto con paquetes como OpenVoice y XTTSv2. Lo que es notable, sin embargo, es la idea de que OpenAI está avanzando lentamente hacia permitir que cualquiera utilice su tecnología de lenguaje particular. Y en cierto modo, la renuencia de la compañía a publicarlo por completo puede ser la historia más importante.
Según OpenAI, los beneficios de su tecnología de voz incluyen brindar asistencia de lectura con voces que suenan naturales, permitir un alcance global para los creadores al traducir contenido manteniendo los acentos nativos, apoyar a las personas no verbales con opciones de lenguaje personalizadas y ayudar a los pacientes a restaurar su propia voz. después alteraciones del habla.
Pero también significa que cualquier persona con 15 segundos de la voz grabada de una persona podría clonarla efectivamente, y eso tiene implicaciones obvias para un posible uso indebido. Aunque OpenAI nunca lanza su motor de voz al público en general, la capacidad de clonar voces ya ha causado problemas en la sociedad, como estafas telefónicas en las que alguien imita la voz de un ser querido y llamadas automáticas de campaña utilizando voces clonadas de políticos como Joe Biden.
Además, investigadores y periodistas han demostrado que la tecnología de clonación de voz se puede utilizar para acceder a cuentas bancarias que utilizan autenticación de voz (como el Voice ID de Chase), lo que atrajo la atención del senador estadounidense Sherrod Brown de Ohio, presidente del Comité de Asuntos del Senado de Estados Unidos. Banca, llevó a Vivienda y Asuntos Urbanos a enviar una carta a los directores ejecutivos de varios bancos importantes en mayo de 2023 para preguntar sobre las medidas de seguridad que están tomando los bancos para abordar los riesgos impulsados por la IA.
OpenAI es consciente de que la tecnología podría causar problemas si se publica ampliamente y, por lo tanto, inicialmente está tratando de solucionar estos problemas con un conjunto de reglas. La empresa ha estado probando la tecnología con varias empresas asociadas seleccionadas desde el año pasado. Por ejemplo, la empresa de síntesis de vídeo HeyGen utiliza el modelo para traducir la voz de un hablante a otros idiomas manteniendo el mismo tono vocal.
[ad_2]