Google en Interspeech 2023 - Blog de investigación de Google

[ad_1]

Publicado por Catherine Armato, directora de programas de Google

Esta semana se llevará a cabo en Dublín, Irlanda, la 24.ª Conferencia Anual de la Asociación Internacional de Comunicación del Habla (INTERSPEECH 2023), una de las conferencias más grandes del mundo sobre investigación y tecnología para la comprensión y el procesamiento del lenguaje hablado. Expertos de campos de investigación relacionados con el lenguaje se reúnen para participar en presentaciones orales y sesiones de carteles y para establecer colaboraciones en todo el mundo.

Estamos felices de ser uno Patrocinador platino de INTERSPEECH 2023, donde presentaremos más de 20 publicaciones de investigación y apoyaremos una serie de talleres y sesiones especiales. Invitamos a los asistentes en persona a pasar por el stand de Google Research para conocer a nuestros investigadores y participar en preguntas y respuestas y demostraciones de algunas de nuestras últimas tecnologías lingüísticas que ayudan a mejorar la accesibilidad y brindar comunicaciones más convenientes para miles de millones de usuarios. Además, se anima a los participantes en línea a visitar nuestro stand virtual en Topia para obtener la información más reciente sobre investigaciones y oportunidades en Google. Visita el @GoogleAI Cuenta de Twitter para conocer las actividades en el stand de Google (por ejemplo, demostraciones y sesiones de preguntas y respuestas). También puede leer más sobre la investigación de Google presentada en INTERSPEECH 2023 a continuación (afiliaciones de Google en claramente).

Junta Directiva y Comité Organizador

Junta Directiva de ISCA, Presidente del Comité Técnico: Bhuvana Ramabhadran

Los presidentes de área incluyen:
Análisis de señales de voz y audio: Richard Rosa
Síntesis de voz y generación de lenguaje hablado: Rob Clark
áreas especiales: Tara Sainath

eventos satelitales

Conferencia magistral: Ganadores de la medalla ISCA

entrevista de encuesta

Compresión del habla en la era de la IA
Vocero: Jan Skoglund

Documentos de reuniones especiales

Codificadores en cascada para ajustar modelos ASR en voz superpuesta
Richard Rosa, Óscar Chang, Olivier Siohan

TokenSplit: uso de representaciones de lenguaje discreto para la separación y el reconocimiento de lenguaje directo, refinado y relacionado con la transcripción
Hakan Erdogan, sabiduría de scottXuankai Chang*, Zalan Borsos, Marco Tagliasacchi, Neil Zeghidour, John Hershey

documentos

DeePMOS: puntuación del habla de opinión media posterior profunda
Xinyu Liang, Fredrik Cumlin, Christian SchaldtSaikat Chatterjee

O-1: Autoformación con Oracle y 1-Mejor Hipótesis
Murali Karthick Baskar, Andres Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi

Reexaminar el modelo Efficient Transfer Learning of Speech Foundation utilizando métodos de fusión de características
Zhou Yuan Huo, Khe Chai Sim, Dongseong Hwang, Tsendsuren Munkhdalai, Tara N.Sainath, pedro moreno

MOS versus AB: evaluación confiable de sistemas de conversión de texto a voz utilizando errores estándar agrupados
campamento de josué, Tom Kenter, Lev Finkelstein, Rob Clark

LanSER: reconocimiento de emociones del habla basado en modelos de lenguaje
gong taesik, jose belanich, Krishna Somandepalli, Arsha Nagrani, Brian Eoff, Brendan Jou

Personalización de dominio modular para ASR de streaming basado en conformadores
Qiujia Li, boli, Dongseong Hwang, Tara N.Sainath, Pedro Mengibar

Sobre el entrenamiento de un cancelador de eco acústico neuronal para mejorar la ASR
Sankaran Panchapagesan, Turaj Zakizadeh Shabestary, Arun Narayanan

MD3: El registro multidialectal de los diálogos
Jacob Eisenstein, Vinodkumar Prabhakaran, Clara RiveraDorottya Demszky y Devyani Sharma

NAM de modo dual: inyección eficaz de contexto top-K para ASR de un extremo a otro
Zelin Wu, Tsendsuren Munkhdalai, Pat Rondón, Golán Pundak, Khe Chai Sim, Cristóbal Li

Uso de la inyección de texto para mejorar el reconocimiento de identificadores personales en el habla
Yochai Azul, Rohan Agrawal, Lior Madmony, Gary Wang, Andres Rosenberg, Zhehuai Chen, Zorik Gekhman, Genady Beriózkin, Parisa Haghani, Bhuvana Ramabhadran

¿Cómo se puede estimar la transferibilidad de los modelos de lenguaje previamente entrenados?
Zih-Ching Chen, Chao-Han Huck Yang*, boli, Yuzhang, Nanxin Chen, Shuo Yin Chang, Rohit Prabhavalkar, colgado yi lee, Tara N.Sainath

Representación conjunta mejorada de voz y texto sin alineación
Cal Peyser, Zhongmeng, Kehu, Rohit Prabhavalkar, Andres Rosenberg, Tara N.SainathMichael Picheny y Kyunghyun Cho

Inyección de texto para capitalización y predicción de turnos en modelos lingüísticos
Shaan Bijwadia, Shuo Yin Chang, Weiran Wang, Zhongmeng, Hao Zhang, Tara N.Sainath

Transmisión de Parrotron para conversión de voz a voz en el dispositivo
Oleg Rybakov, Fadi Biadsy, Xiao Zhang, Liyangjiang, Alondra Fénix, Shivani Agrawal

La segmentación semántica con modelos de lenguaje bidireccionales mejora el ASR de formato largo
W. Ronny Huang, Hao Zhang, Shankar Kumar, Shuo Yin Chang, Tara N.Sainath

Transcripción fonética automática universal al alfabeto fonético internacional.
Chihiro Taguchi, Yusuke Sakai, Parisa HaghaniDavid Chiang

Compatible con Mixture-of-Expert para transmisión de ASR multilingüe
Kehu, boli, Tara N.Sainath, Yuzhang, Françoise Beaupays

Inversión de espectrograma en tiempo real en teléfonos móviles
Oleg Rybakov, Marco Tagliasacchi, Yun Peng Li, Liyangjiang, Xiao Zhang, Fadi Biadsy

Cuantización conforme de 2 bits para reconocimiento automático de voz
Oleg Rybakov, Alondra Fénix, cosa shaojin, David Qiu, jian li, David Rim, Yanzhang Hey

LibriTTS-R: un corpus de conversión de texto a voz restaurado para múltiples hablantes
Yuma Koizumi, Hola zen, Shigeki Karita, cosa yifanKohei Yatabe, Nobuyuki Morioka, Michael Bacchiani, Yuzhang, Wei Han, ankur bapna

PronScribe: transcripción fonémica multimodal de alta precisión a partir de voz y texto
yang yuMateo Pérez*, ankur bapna, Fadi Haik, Siamak Tazari, Yuzhang

Aprendizaje de representación de lenguaje con reconocimiento de etiquetas para la identificación de lenguaje
Shikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, ankur bapna, min ma, Wei Han, Vera Axelrod, Partha Talukdar

* Trabajo realizado en Google

[ad_2]

Subscribe to Updates

What's Hot

Google en Interspeech 2023 – Blog de investigación de Google