[ad_1]
Esta semana se llevará a cabo en Dublín, Irlanda, la 24.ª Conferencia Anual de la Asociación Internacional de Comunicación del Habla (INTERSPEECH 2023), una de las conferencias más grandes del mundo sobre investigación y tecnología para la comprensión y el procesamiento del lenguaje hablado. Expertos de campos de investigación relacionados con el lenguaje se reúnen para participar en presentaciones orales y sesiones de carteles y para establecer colaboraciones en todo el mundo.
Estamos felices de ser uno Patrocinador platino de INTERSPEECH 2023, donde presentaremos más de 20 publicaciones de investigación y apoyaremos una serie de talleres y sesiones especiales. Invitamos a los asistentes en persona a pasar por el stand de Google Research para conocer a nuestros investigadores y participar en preguntas y respuestas y demostraciones de algunas de nuestras últimas tecnologías lingüísticas que ayudan a mejorar la accesibilidad y brindar comunicaciones más convenientes para miles de millones de usuarios. Además, se anima a los participantes en línea a visitar nuestro stand virtual en Topia para obtener la información más reciente sobre investigaciones y oportunidades en Google. Visita el @GoogleAI Cuenta de Twitter para conocer las actividades en el stand de Google (por ejemplo, demostraciones y sesiones de preguntas y respuestas). También puede leer más sobre la investigación de Google presentada en INTERSPEECH 2023 a continuación (afiliaciones de Google en claramente).
Junta Directiva y Comité Organizador
Junta Directiva de ISCA, Presidente del Comité Técnico: Bhuvana Ramabhadran
Los presidentes de área incluyen:
Análisis de señales de voz y audio: Richard Rosa
Síntesis de voz y generación de lenguaje hablado: Rob Clark
áreas especiales: Tara Sainath
eventos satelitales
Conferencia magistral: Ganadores de la medalla ISCA
entrevista de encuesta
Compresión del habla en la era de la IA
Vocero: Jan Skoglund
Documentos de reuniones especiales
Codificadores en cascada para ajustar modelos ASR en voz superpuesta
Richard Rosa, Óscar Chang, Olivier Siohan
TokenSplit: uso de representaciones de lenguaje discreto para la separación y el reconocimiento de lenguaje directo, refinado y relacionado con la transcripción
Hakan Erdogan, sabiduría de scottXuankai Chang*, Zalan Borsos, Marco Tagliasacchi, Neil Zeghidour, John Hershey
documentos
DeePMOS: puntuación del habla de opinión media posterior profunda
Xinyu Liang, Fredrik Cumlin, Christian SchaldtSaikat Chatterjee
O-1: Autoformación con Oracle y 1-Mejor Hipótesis
Murali Karthick Baskar, Andres Rosenberg, Bhuvana Ramabhadran, Kartik Audhkhasi
Reexaminar el modelo Efficient Transfer Learning of Speech Foundation utilizando métodos de fusión de características
Zhou Yuan Huo, Khe Chai Sim, Dongseong Hwang, Tsendsuren Munkhdalai, Tara N.Sainath, pedro moreno
MOS versus AB: evaluación confiable de sistemas de conversión de texto a voz utilizando errores estándar agrupados
campamento de josué, Tom Kenter, Lev Finkelstein, Rob Clark
LanSER: reconocimiento de emociones del habla basado en modelos de lenguaje
gong taesik, jose belanich, Krishna Somandepalli, Arsha Nagrani, Brian Eoff, Brendan Jou
Personalización de dominio modular para ASR de streaming basado en conformadores
Qiujia Li, boli, Dongseong Hwang, Tara N.Sainath, Pedro Mengibar
Sobre el entrenamiento de un cancelador de eco acústico neuronal para mejorar la ASR
Sankaran Panchapagesan, Turaj Zakizadeh Shabestary, Arun Narayanan
MD3: El registro multidialectal de los diálogos
Jacob Eisenstein, Vinodkumar Prabhakaran, Clara RiveraDorottya Demszky y Devyani Sharma
NAM de modo dual: inyección eficaz de contexto top-K para ASR de un extremo a otro
Zelin Wu, Tsendsuren Munkhdalai, Pat Rondón, Golán Pundak, Khe Chai Sim, Cristóbal Li
Uso de la inyección de texto para mejorar el reconocimiento de identificadores personales en el habla
Yochai Azul, Rohan Agrawal, Lior Madmony, Gary Wang, Andres Rosenberg, Zhehuai Chen, Zorik Gekhman, Genady Beriózkin, Parisa Haghani, Bhuvana Ramabhadran
¿Cómo se puede estimar la transferibilidad de los modelos de lenguaje previamente entrenados?
Zih-Ching Chen, Chao-Han Huck Yang*, boli, Yuzhang, Nanxin Chen, Shuo Yin Chang, Rohit Prabhavalkar, colgado yi lee, Tara N.Sainath
Representación conjunta mejorada de voz y texto sin alineación
Cal Peyser, Zhongmeng, Kehu, Rohit Prabhavalkar, Andres Rosenberg, Tara N.SainathMichael Picheny y Kyunghyun Cho
Inyección de texto para capitalización y predicción de turnos en modelos lingüísticos
Shaan Bijwadia, Shuo Yin Chang, Weiran Wang, Zhongmeng, Hao Zhang, Tara N.Sainath
Transmisión de Parrotron para conversión de voz a voz en el dispositivo
Oleg Rybakov, Fadi Biadsy, Xiao Zhang, Liyangjiang, Alondra Fénix, Shivani Agrawal
La segmentación semántica con modelos de lenguaje bidireccionales mejora el ASR de formato largo
W. Ronny Huang, Hao Zhang, Shankar Kumar, Shuo Yin Chang, Tara N.Sainath
Transcripción fonética automática universal al alfabeto fonético internacional.
Chihiro Taguchi, Yusuke Sakai, Parisa HaghaniDavid Chiang
Compatible con Mixture-of-Expert para transmisión de ASR multilingüe
Kehu, boli, Tara N.Sainath, Yuzhang, Françoise Beaupays
Inversión de espectrograma en tiempo real en teléfonos móviles
Oleg Rybakov, Marco Tagliasacchi, Yun Peng Li, Liyangjiang, Xiao Zhang, Fadi Biadsy
Cuantización conforme de 2 bits para reconocimiento automático de voz
Oleg Rybakov, Alondra Fénix, cosa shaojin, David Qiu, jian li, David Rim, Yanzhang Hey
LibriTTS-R: un corpus de conversión de texto a voz restaurado para múltiples hablantes
Yuma Koizumi, Hola zen, Shigeki Karita, cosa yifanKohei Yatabe, Nobuyuki Morioka, Michael Bacchiani, Yuzhang, Wei Han, ankur bapna
PronScribe: transcripción fonémica multimodal de alta precisión a partir de voz y texto
yang yuMateo Pérez*, ankur bapna, Fadi Haik, Siamak Tazari, Yuzhang
Aprendizaje de representación de lenguaje con reconocimiento de etiquetas para la identificación de lenguaje
Shikhar Vashishth, Shikhar Bharadwaj, Sriram Ganapathy, ankur bapna, min ma, Wei Han, Vera Axelrod, Partha Talukdar
* Trabajo realizado en Google
[ad_2]