[ad_1]
Hemos entrenado y abierto una red neuronal llamada Whisper que se aproxima a la solidez y precisión del reconocimiento de voz en inglés a nivel humano.
leer papel
mostrar código
ver modelo de ficha
Whisper es un sistema de reconocimiento automático de voz (ASR) entrenado en 680 000 horas de datos multitarea monitoreados y multilingües de la web. Mostramos que el uso de un conjunto de datos tan grande y diverso da como resultado una mayor solidez a los acentos, el ruido de fondo y la jerga. Además, permite la transcripción a múltiples idiomas así como la traducción de esos idiomas al inglés. Proporcionamos modelos de código abierto y código de inferencia que sirven como base para desarrollar aplicaciones útiles y seguir investigando sobre el procesamiento robusto del lenguaje.
La arquitectura Whisper es un enfoque simple de extremo a extremo implementado como un codificador-decodificador-transformador. El audio de entrada se divide en fragmentos de 30 segundos, se convierte en un espectrograma log-mel y luego se envía a un codificador. Se entrena un decodificador para predecir la etiqueta de texto correspondiente combinada con tokens especiales que dirigen al modelo individual para realizar tareas como identificación de idioma, marcas de tiempo a nivel de frase, transcripción de voz multilingüe y traducción de voz al inglés.
Otros enfoques existentes a menudo usan conjuntos de datos de entrenamiento de audio y texto más pequeños y más estrechamente emparejadoso use un preentrenamiento de audio amplio pero no supervisado. Debido a que Whisper se entrenó en un conjunto de datos grande y diverso, en lugar de optimizarse para uno específico, no supera a los modelos especializados en el rendimiento de LibriSpeech, un punto de referencia notoriamente competitivo en el reconocimiento de voz. Sin embargo, cuando medimos el rendimiento de disparo cero de Whisper en muchos conjuntos de datos diferentes, encontramos que es mucho más sólido y comete un 50 % menos de errores que estos modelos.
Alrededor de un tercio del conjunto de datos de audio de Whisper no está en inglés y se le asignan tareas alternativas de transcripción al idioma original o traducción al inglés. Consideramos que este enfoque es particularmente efectivo cuando se aprende la traducción de voz a texto, superando el SOTA supervisado en CoVoST2 a English Translation Zero-Shot.
Esperamos que el alto nivel de precisión y facilidad de uso de Whisper permita a los desarrolladores agregar interfaces de voz a una gama mucho más amplia de aplicaciones. Consulte el papel, la tarjeta modelo y el código para conocer más detalles y probar Whisper.
[ad_2]