[ad_1]
Otros enfoques existentes suelen utilizar conjuntos de datos de entrenamiento de texto y audio más pequeños y más estrechamente emparejados.[^reference-1] [^reference-2][^reference-3] o utilice un entrenamiento previo de audio completo pero no supervisado.[^reference-4][^reference-5][^reference-6] Debido a que Whisper fue entrenado en un conjunto de datos grande y diverso y no está ajustado para ningún conjunto de datos específico, no supera a los modelos especializados en el desempeño de LibriSpeech, un punto de referencia notoriamente competitivo en reconocimiento de voz. Sin embargo, cuando medimos el rendimiento de disparo cero de Whisper en muchos conjuntos de datos diferentes, descubrimos que es mucho más sólido y comete un 50% menos de errores que estos modelos.
Aproximadamente un tercio del conjunto de datos de audio de Whisper no está en inglés y, alternativamente, se encarga su transcripción al idioma original o su traducción al inglés. Descubrimos que este enfoque es particularmente efectivo en el aprendizaje de la traducción de voz y texto y supera a SOTA supervisado en la traducción cero de CoVoST2 al inglés.
[ad_2]