Amazon Polly es un servicio líder basado en la nube que convierte texto en voz realista. Después de la introducción de Neural Text-to-Speech (NTTS), hemos ampliado continuamente nuestra cartera de voces disponibles para proporcionar una amplia gama de hablantes diferentes en los idiomas admitidos. Hoy nos complace anunciar cuatro nuevas incorporaciones: Pedro habla español estadounidense, Daniel habla alemán, Liam habla francés canadiense y Arthur habla inglés británico. Como todas las voces neuronales de nuestra cartera, estas voces ofrecen una pronunciación nativa y fluida en sus idiomas de destino. Sin embargo, lo que es único acerca de estas cuatro voces es que todas se basan en la misma voz.
Pedro, Daniel, Liam y Arthur se modelaron a partir de una voz existente de Matthew en inglés estadounidense. Si bien los clientes continúan apreciando a Matthew por su naturalidad y su calidad de sonido profesional, hasta ahora la voz solo se ha dirigido al público de habla inglesa. Ahora, utilizando métodos de aprendizaje profundo, hemos desvinculado el idioma y la identidad del hablante, lo que nos permitió mantener el dominio del idioma nativo en muchos idiomas sin tener que obtener datos multilingües del mismo hablante. En la práctica, esto significa que hemos transferido las características de voz de Matthew en inglés estadounidense a español estadounidense, alemán, francés canadiense e inglés británico, lo que abre nuevas oportunidades para los clientes de Amazon Polly.
Tener una voz con un sonido similar disponible en cinco ubicaciones abre un gran potencial para el crecimiento del negocio. En primer lugar, los clientes con una presencia global pueden crear una experiencia de usuario coherente en todos los idiomas y geografías. Por ejemplo, un sistema de respuesta de voz interactiva (IVR) que admite varios idiomas ahora puede atender a diferentes segmentos de clientes sin cambiar la sensación de la marca. Lo mismo se aplica a todos los demás casos de uso de TTS, como p. B. la salida de voz de artículos de noticias, materiales de capacitación o podcasts.
En segundo lugar, las voces funcionan bien para los clientes de Amazon Polly que buscan pronunciación nativa de frases en idiomas extranjeros en cualquiera de los cinco idiomas admitidos.
En tercer lugar, el lanzamiento de Pedro, Daniel, Liam y Arthur sirve a nuestros clientes a quienes les gusta Amazon Polly NTTS en español de EE. UU., alemán, francés canadiense e inglés británico, pero buscan una voz masculina de calidad; pueden usar estas voces para grabar. crea audio para contenido monolingüe y espera una calidad superior comparable a otras voces NTTS en esos idiomas.
Finalmente, la tecnología que desarrollamos para crear las nuevas voces masculinas NTTS también se puede utilizar para Brand Voices. Esto permite a los clientes de Brand Voice no solo disfrutar de una voz NTTS única adaptada a su marca, sino también mantener una experiencia consistente mientras atienden a una audiencia internacional.
ejemplo de caso de uso
Examinemos un caso de uso de ejemplo para demostrar lo que esto significa en la práctica. Los clientes de Amazon Polly que estén familiarizados con Matthew pueden seguir usando esta voz como de costumbre seleccionando mateo en la consola de Amazon Polly e ingrese cualquier texto que desee escuchar hablado en inglés estadounidense. En el siguiente escenario, generamos muestras de audio para un sistema IVR («Para inglés, presione uno»):
Gracias a esta versión, ahora puede ampliar el caso de uso para brindar una experiencia de audio consistente en diferentes idiomas. Todas las voces nuevas suenan naturales y mantienen un acento nativo.
- Para generar voz en inglés británico, seleccione Arthur («Para inglés, presione uno»):
- Para usar un hablante de español de EE. UU., seleccione Pedro («Para español, por favor marque dos»):
- Daniel ofrece soporte en alemán («Para alemán, presione tres»):
- Puede sintetizar texto en francés canadiense seleccionando Liam («Pour le français, veuillez appuyer sur le quatre»):
Tenga en cuenta que, además de hablar con un acento diferente, la voz de Arthur en inglés británico localiza el texto de entrada de manera diferente a la voz de Matthew en inglés estadounidense. Por ejemplo, Arthur lee «1/2/22» como «1 de febrero de 2022», mientras que Matthew lo lee como «2 de febrero de 2022». Enero de 2022”, se leerá.
Ahora combinemos estas indicaciones:
Conclusión
Pedro, Daniel, Liam y Arthur solo están disponibles como voces Neural TTS. Entonces, para disfrutarlos, debe usar el motor neuronal en una de las regiones de AWS que admiten NTTS. Estas son voces monolingües de alta calidad en sus idiomas de destino. El hecho de que sus personas sean consistentes en todos los idiomas es un beneficio adicional que esperamos deleite a los clientes que trabajan con contenido en varios idiomas. Para obtener más detalles, consulte nuestra lista completa de voces de texto a voz de Amazon Polly, precios de Neural TTS, límites de servicio, preguntas frecuentes y visite nuestra página de precios.
Sobre los autores
Patrik Wainaina es ingeniero lingüístico y trabaja en texto a voz para inglés, alemán y español. Con experiencia en el procesamiento del habla y el lenguaje, su interés radica en el aprendizaje automático aplicado a las soluciones front-end de TTS, particularmente en entornos de bajos recursos. En su tiempo libre disfruta escuchando música electrónica y aprendiendo nuevos idiomas.
Marta Smolarek es gerente sénior de programas en el equipo de conversión de texto a voz de Amazon, donde se enfoca en el caso de uso de TTS del centro de contacto. Ella define las iniciativas de lanzamiento al mercado, utiliza los comentarios de los clientes para crear la hoja de ruta del producto y coordina los lanzamientos de idiomas de TTS. Fuera del trabajo, le gusta ir de campamento con su familia.