Amazon Transcribe anuncia un nuevo sistema ASR basado en un modelo básico de lenguaje que amplía el soporte a más de 100 idiomas

[ad_1]

Amazon Transcribe es un servicio de reconocimiento automático de voz (ASR) totalmente administrado que facilita la adición de capacidades de conversión de voz a texto a sus aplicaciones. Hoy nos complace anunciar un sistema básico de lenguaje basado en voz de próxima generación que extiende el reconocimiento automático de voz a más de 100 idiomas. En esta publicación, analizaremos algunos de los beneficios de este sistema, cómo lo utilizan las empresas y cómo empezar. A continuación también se muestra un ejemplo del resultado de la transcripción.

El modelo básico del lenguaje de Transcribe está entrenado con algoritmos autosupervisados de clase mundial para aprender los patrones universales inherentes del habla humana en todos los idiomas y acentos. Se basa en millones de horas de datos de audio sin etiquetar de más de 100 idiomas. Las recetas de capacitación se optimizan mediante muestreo de datos inteligente para equilibrar los datos de capacitación entre idiomas y garantizar que los idiomas tradicionalmente subrepresentados también alcancen un alto nivel de precisión.

Carbyne es una empresa de software que desarrolla soluciones de centros de contacto de misión crítica basadas en la nube para servicios de emergencia. La misión de Carbyne es ayudar a los socorristas a salvar vidas, y el lenguaje no puede interponerse en el camino de sus objetivos. Así es como utilizan Amazon Transcribe para llevar a cabo su misión:

“Carbyne Live Audio Translation, impulsada por IA, tiene como objetivo directo mejorar la respuesta de emergencia para los 68 millones de estadounidenses que hablan un idioma distinto del inglés en casa, además de los hasta 79 millones de visitantes extranjeros que visitan el país anualmente. Aprovechando el nuevo modelo base multilingüe de Amazon Transcribe con ASR, Carbyne está aún mejor equipado que Every para democratizar los servicios de emergencia que salvan vidas. Persona. Cuenta.”

– Alex Dizengof, cofundador y CTO de Carbyne.

Al aprovechar el modelo básico del lenguaje, Amazon Transcribe ofrece una mejora significativa en la precisión de entre el 20 % y el 50 % en la mayoría de los idiomas. En telefonía, un área exigente y con escasez de datos, la mejora de la precisión está entre el 30% y el 70%. Además de una mejora significativa en la precisión, este gran modelo ASR también proporciona una mejora en la legibilidad mediante puntuación y mayúsculas más precisas. Con la llegada de la IA generativa, miles de empresas están utilizando Amazon Transcribe para obtener información detallada de su contenido de audio. Con una precisión significativamente mejorada y soporte para más de 100 idiomas, Amazon Transcribe tendrá un impacto positivo en todos estos casos de uso. Todos los clientes nuevos y existentes que utilizan Amazon Transcribe en modo por lotes pueden acceder al reconocimiento de voz basado en modelos de Speech Foundation sin necesidad de realizar ningún cambio en el punto final de la API ni en los parámetros de entrada.

El nuevo sistema ASR ofrece varias características clave relacionadas con la usabilidad, la personalización, la seguridad del usuario y la protección de datos en más de 100 idiomas. Estas incluyen características como puntuación automática, vocabulario personalizado, reconocimiento automático de voz, diario del orador, puntuaciones de confianza a nivel de palabras y filtro de vocabulario personalizado. El soporte ampliado del sistema para diferentes acentos, entornos sonoros y condiciones acústicas le permite ofrecer resultados más precisos, lo que le ayuda a integrar eficazmente tecnologías de voz en sus aplicaciones.

La alta precisión de Amazon Transcribe en diferentes acentos y condiciones de sonido, la compatibilidad con una gran cantidad de idiomas y la amplia gama de funciones de valor agregado permitirán a miles de empresas hacer esto. Descubra información valiosa de su contenido de audio y aumente la accesibilidad y la capacidad de descubrimiento de su contenido de audio y video en diferentes dominios. Por ejemplo, los centros de contacto transcriben y analizan las llamadas de los clientes para obtener información y posteriormente mejorar la experiencia del cliente y la productividad de los agentes. Los productores de contenido y distribuidores de medios generan subtítulos automáticamente utilizando Amazon Transcribe para mejorar la accesibilidad del contenido.

Comience con Amazon Transcribe

Puede utilizar y seguir utilizando la interfaz de línea de comandos de AWS (AWS CLI), la consola de administración de AWS y varios SDK de AWS para transcripciones por lotes. StartTranscriptionJob API para obtener beneficios de rendimiento del modelo ASR extendido sin necesidad de realizar ningún cambio de código o parámetro por su parte. Para obtener más información sobre el uso de la CLI y la consola de AWS, consulte Transcripción con la CLI de AWS y Transcripción con la Consola de administración de AWS, respectivamente.

El primer paso es cargar sus archivos multimedia en un depósito de Amazon Simple Storage Service (Amazon S3), un servicio de almacenamiento de objetos diseñado para almacenar y acceder a cualquier cantidad de datos desde cualquier lugar. Amazon S3 ofrece durabilidad, disponibilidad, rendimiento, seguridad y escalabilidad prácticamente ilimitada líderes en la industria a un costo muy bajo. Puede almacenar su transcripción en su propio depósito S3 o hacer que Amazon Transcribe utilice un depósito predeterminado seguro. Para obtener más información sobre el uso de depósitos de S3, consulte Creación, configuración y trabajo con depósitos de Amazon S3.

Salida de transcripción

Amazon Transcribe utiliza representación JSON para su salida. El resultado de la transcripción se proporciona en dos formatos diferentes: formato de texto y formato de pieza. Nada cambia en el punto final de la API ni en los parámetros de entrada.

El formato de texto proporciona la transcripción como un bloque de texto, mientras que el formato de pieza proporciona la transcripción como elementos transcritos ordenados en el tiempo junto con metadatos adicionales por elemento. Ambos formatos están presentes en paralelo en el archivo de salida.

Según las características que seleccione al crear el trabajo de transcripción, Amazon Transcribe crea vistas adicionales y ampliadas del resultado de la transcripción. Consulte el código de muestra a continuación:

{
   "jobName": "2x-speakers_2x-channels",
    "accountId": "************",
    "results": {
        "transcripts": [
{
                "transcript": "Hi, welcome."
            }
        ],
        "speaker_labels": [
            {
                "channel_label": "ch_0",
                "speakers": 2,
                "segments": [
                ]
            },
            {
                "channel_label": "ch_1",
                "speakers": 2,
                "segments": [
                ]
            }
        ],
        "channel_labels": {
            "channels": [
            ],
            "number_of_channels": 2
        },
        "items": [
            
        ],
        "segments": [
        ]
    },
    "status": "COMPLETED"
}

Las vistas son las siguientes:

Transcripciones – Representado por el transcripts elemento contiene sólo el formato de texto de la transcripción. En escenarios de múltiples hablantes y múltiples canales, la concatenación de todas las transcripciones se proporciona en un solo bloque.
vocero – Representado por el speaker_labels elemento, contiene el texto y los formatos desglosados de la transcripción, agrupados por hablante. Sólo está disponible cuando la función de varios altavoces está activada.
canales – Representado por el channel_labels elemento, contiene el texto y formatos desglosados de la transcripción, agrupados por canal. Sólo está disponible cuando la función multicanal está activada.
Artículo – Representado por el items elemento contiene sólo el formato detallado de la transcripción. En escenarios de varios altavoces y canales, los elementos se enriquecen con propiedades adicionales que especifican el altavoz y el canal.
Segmentos – Representado por el segments elemento, contiene el texto y los formatos desglosados de la transcripción, agrupados por transcripción alternativa. Solo está disponible cuando la función Resultados alternativos está habilitada.

Diploma

En AWS, innovamos constantemente en nombre de nuestros clientes. Al ampliar el soporte lingüístico en Amazon Transcribe a más de 100 idiomas, permitimos a nuestros clientes atender a usuarios con diversos orígenes lingüísticos. Esto no sólo mejora la accesibilidad, sino que también abre nuevas oportunidades para la comunicación y el intercambio de información a escala global. Para obtener más información sobre las funciones analizadas en esta publicación, consulte la página de funciones y la publicación Novedades.

Sobre los autores

Sumit Kumar Es gerente principal de productos y técnico del equipo de servicios lingüísticos de IA de AWS. Tiene 10 años de experiencia en gestión de productos en diversas áreas y le apasiona la IA/ML. Fuera del trabajo, a Sumit le gusta viajar y jugar cricket y tenis sobre hierba.

Vivek Singh es gerente sénior de gestión de productos en el equipo de servicios lingüísticos de IA de AWS. Dirige el equipo de productos de Amazon Transcribe. Antes de unirse a AWS, ocupó puestos de gestión de productos en varias otras organizaciones de Amazon, incluidos pagos de consumidores y venta minorista. Vivek vive en Seattle, WA y le encanta correr y hacer senderismo.

[ad_2]

Subscribe to Updates

What's Hot

Amazon Transcribe anuncia un nuevo sistema ASR basado en un modelo básico de lenguaje que amplía el soporte a más de 100 idiomas

Comience con Amazon Transcribe

Salida de transcripción

Diploma

Sobre los autores

Related Posts