Amazon Polly, un servicio de texto a voz generado por IA, le permite automatizar y escalar sus soluciones de voz interactivas, aumentando la productividad y reduciendo los costos.
A medida que nuestros clientes continúan usando Amazon Polly por sus ricas funciones y facilidad de uso, hemos visto una demanda de la capacidad de generar audio y subtítulos sincronizados simultáneamente, o subtítulos para una entrada de texto específica. En AWS, trabajamos continuamente hacia atrás a partir de las solicitudes de nuestros clientes, por lo que en esta publicación describimos un método para generar audio y subtítulos simultáneamente para un texto determinado.
Aunque los subtítulos y las leyendas a menudo se usan indistintamente, incluso en esta publicación, existen diferencias sutiles entre ellos:
- subtitular – En los subtítulos, el idioma del texto que se muestra en la pantalla difiere del idioma del audio y no muestra nada que no sea diálogo, como un ruido significativo. El objetivo principal es llegar a la audiencia que no habla el idioma del audio en el video.
- Subtítulos (cerrados/abiertos) – Los subtítulos muestran los diálogos hablados en el audio en el mismo idioma. Su objetivo principal es mejorar la accesibilidad en los casos en que el usuario final no puede escuchar el audio debido a una variedad de problemas. Los subtítulos son parte de un archivo diferente a la fuente de audio/video y se pueden activar y desactivar a discreción del usuario, mientras que los subtítulos abiertos son parte del archivo de video y el usuario no puede desactivarlos.
Beneficios de usar Amazon Polly para generar audio con subtítulos o subtítulos
Considere el siguiente caso de uso: está preparando una presentación basada en diapositivas para un portal de aprendizaje en línea. Cada diapositiva contiene capturas de pantalla y comentarios. El contenido en pantalla es una descripción general básica y la narración entra en detalles. En lugar de grabar una voz humana, que puede ser engorrosa e inconsistente, puede usar Amazon Polly para generar la narración. Amazon Polly produce voces consistentes y de alta calidad. No se requiere procesamiento posterior. Si necesita actualizar alguna parte de la presentación en el futuro, solo necesita actualizar las diapositivas afectadas. La voz corresponde a las diapositivas originales. Además, cuando Amazon Polly genera su audio, incluye subtítulos que aparecen al mismo tiempo que el audio. Ahorrará tiempo al no requerir la grabación manual y ahorrará tiempo adicional cuando se requieran actualizaciones. Su presentación también proporciona más valor ya que los subtítulos ayudan a los estudiantes a consumir el contenido. Es una solución ganar-ganar-ganar.
Hay una variedad de casos de uso para los subtítulos, tales como: B. Anuncios en espacios sociales, gimnasios, cafeterías y otros lugares donde normalmente se reproduciría algo en un televisor con el sonido silenciado y música de fondo; formación y cursos en línea; reuniones virtuales; avisos públicos electrónicos; mira videos mientras viajas sin auriculares y sin molestar a los pasajeros; y varios más.
Independientemente del área de aplicación, los subtítulos pueden ayudar con lo siguiente:
- Accesibilidad – Las personas con discapacidad auditiva pueden consumir mejor tu contenido.
- retencion – El aprendizaje en línea es más fácil de entender y retener para los estudiantes electrónicos cuando se involucran más sentidos humanos.
- accesibilidad – Su contenido puede llegar a personas que tienen prioridades contrapuestas, como: B. reproducir y ver las noticias al mismo tiempo, o personas que tienen un idioma nativo diferente al idioma del audio.
- capacidad de búsqueda – El contenido es buscable por los motores de búsqueda. Si bien la mayoría de los motores de búsqueda no pueden buscar videos de manera óptima, los motores de búsqueda pueden usar los archivos de texto de subtítulos y hacer que su contenido sea más reconocible.
- cortesía social – A veces puede ser de mala educación reproducir audio debido a su entorno o el audio puede ser difícil de escuchar debido al ruido de su entorno.
- comprensión – El contenido es más fácil de entender, independientemente del acento del hablante, el idioma nativo del hablante o la velocidad de habla. También puede tomar notas sin ver la misma escena repetidamente.
descripción general de la solución
La biblioteca presentada en esta publicación utiliza Amazon Polly para generar sonido y subtítulos para un texto de entrada. Puede integrar fácilmente esta biblioteca en sus aplicaciones de texto a voz. Admite múltiples formatos de audio y subtítulos en formatos de archivo VTT y SRT, que son los más utilizados en la industria.
En este post, nos centraremos en la PollyVTT()
sintaxis y opciones y proporcione algunos ejemplos que demuestren el uso de Python SubtitleGeneratorForPolly
para generar simultáneamente archivos de audio y subtítulos sincrónicos para una entrada de texto determinada. El formato de archivo de audio de salida puede ser PCM (wav), OGG o MP3, y el formato de archivo de subtítulos puede ser VTT o SRT. Aparte de eso, SubtitleGeneratorForPolly
es compatible con todos los Amazon Polly synthesize_speech
parámetros y se suma a la amplia funcionalidad de Amazon Polly.
Que polly-vtt
La biblioteca y sus dependencias están disponibles en GitHub.
Instalar y usar la característica
Antes de ver algunos ejemplos de aplicación PollyVTT()
la función, las fuerzas SubtitleGeneratorForPolly
veamos la instalación y la sintaxis.
Instale la biblioteca con el siguiente código:
Para ejecutar desde la línea de comando, simplemente ejecute polly-vtt
:
El siguiente código muestra sus opciones:
Ahora veamos algunos ejemplos.
Ejemplo 1
Este ejemplo genera un archivo de audio PCM junto con un archivo de subtítulos SRT para dos oraciones simples:
ejemplo 2
Este ejemplo muestra cómo usar un párrafo de texto como entrada. Esto generará archivos de audio en WAV, MP3 y OGG y subtítulos en SRT y VTT. El siguiente ejemplo crea seis archivos para el texto de entrada dado:
pcm_testfile.wav
pcm_testfile.wav.vtt
mp3_testfile.mp3
mp3_testfile.mp3.vtt
ogg_testfile.ogg
ogg_testfile.ogg.srt
Ver el siguiente código:
Ejemplo 3
Sin embargo, en la mayoría de los casos desea pasar el texto como un archivo de entrada. El siguiente es un ejemplo de Python de esto, con el mismo resultado que el ejemplo anterior:
La siguiente es una publicación testimonial con subtítulos del equipo interno de capacitación de AWS sobre el uso de Amazon Polly:
El siguiente video proporciona una breve demostración de cómo lo usa el equipo de capacitación interna de AWS. PollyVTT()
:
Conclusión
En esta publicación, hemos compartido un método para generar audio y subtítulos al mismo tiempo para un texto específico. Que PollyVTT()
función y SubtitleGeneratorForPolly
abordar una necesidad común de subtítulos ocultos de una manera eficiente y eficaz. El equipo de Amazon Polly continúa inventando y brindando soluciones simplificadas para las necesidades complejas de los clientes.
Para obtener más tutoriales e información sobre Amazon Polly, consulte el blog de AWS Machine Learning.
Sobre los autores
Abhishek Soni es Partner Solutions Architect en AWS. Trabaja con los clientes para brindar orientación técnica para obtener el mejor resultado de las cargas de trabajo en AWS.
Dan McKee utiliza audio, video y café para destilar el contenido en cursos dirigidos, modulares y estructurados. En su papel como gerente de proyecto de desarrollo de currículo para el dominio NetSec en Amazon Web Services, utiliza su experiencia en redes de centros de datos para ayudar a los expertos en la materia a dar vida a las ideas.
orlando karam es desarrollador de currículo técnico en Amazon Web Services, lo que significa que puede jugar con nuevas tecnologías geniales y luego hablar sobre ellas. Ocasionalmente, también usa estas geniales tecnologías para facilitar su trabajo.