Año de la Voz - Capítulo 2: Hablemos

[ad_1]

Este año es el Año del Asistente de Voz del Hogar. Nuestro objetivo para 2023 es permitir a los usuarios controlar Home Assistant en su propio idioma. Hoy presentamos el Capítulo 2, nuestro segundo hito hacia ese objetivo.

En el Capítulo 1, nos centramos en la intención: lo que el usuario quiere hacer. Hoy, la comunidad de Home Assistant ha traducido comandos y respuestas comunes del hogar inteligente a 45 idiomas, acercándose a los 62 idiomas que admite Home Assistant.

Para el Capítulo 2, ampliamos el contenido más allá del texto y ahora incluimos audio. Específicamente, se trata de convertir audio (voz) en texto y texto nuevamente en voz. Con esta funcionalidad, la función Assist de Home Assistant ahora puede proporcionar a los usuarios una interfaz de voz completa para la interacción.

Un asistente de idiomas también requiere hardware. Por eso, hoy lanzamos el soporte ESPHome para Assist y; Para colmo, lanzamos el asistente de voz más privado del mundo. Siga leyendo para saber qué significa eso.

Para ver la presentación en video de esta publicación de blog que incluye demostraciones en vivo, mire la grabación de nuestra transmisión en vivo.

Asistentes lingüísticos de composición

Con la nueva integración de Assist Pipeline podrás configurar todos los componentes que componen un asistente de voz en un solo lugar.

Para los comandos de voz, las canalizaciones comienzan con audio. Un sistema de conversión de voz a texto determina las palabras pronunciadas por el usuario y luego las reenvía a un agente de conversación. El agente extrae la intención del texto y la ejecuta el Home Assistant. En este punto, «encender la luz» haría que la luz se encendiera 💡. La parte final del proceso es la conversión de texto a voz, donde se le lee la respuesta del agente. Puede ser una simple confirmación («luces encendidas») o la respuesta a una pregunta, p. B. «¿Qué luces están encendidas?»

Captura de pantalla de la nueva configuración de Assist en Home Assistant.

La nueva página de configuración del asistente de voz permite a los usuarios crear múltiples asistentes y combinar y personalizar servicios de voz. ¿Quiere un asistente de inglés estadounidense que responda con acento británico? Ningún problema. ¿Qué tal un segundo asistente que escuche los comandos de voz en holandés, alemán o francés? O tal vez quieras incluir ChatGPT en la mezcla. Cree tantos asistentes como desee y utilícelos a través del cuadro de diálogo Asistencia, así como el hardware del asistente de voz para Home Assistant.

Interactuar con muchos servicios diferentes significa que pueden salir mal muchas cosas diferentes. Para ayudar a los usuarios a descubrir qué salió mal, hemos integrado amplias herramientas de depuración del asistente de voz en Home Assistant. Puedes ver las últimas 10 interacciones por asistente de voz en cualquier momento.

Captura de pantalla de la nueva herramienta de depuración Assist.

Asistente de voz con Home Assistant Cloud

La suscripción a Home Assistant Cloud incluye servicios de voz a texto y de texto a voz de última generación, además de una conexión remota cifrada de extremo a extremo. Esto le permite a su asistente de voz hablar más de 130 idiomas (incluidos dialectos como el español peruano) y es extremadamente receptivo. Muestra:

Como suscriptor, puedes comenzar a usar la voz en Home Assistant de inmediato. No necesita ningún hardware o software adicional para comenzar.

Además de la conversión de voz a texto y de texto a voz de alta calidad para sus asistentes de voz, también apoya el desarrollo del propio Home Assistant.

Únase a Home Assistant Cloud hoy

El asistente de voz totalmente local

Con Home Assistant, puedes garantizar dos cosas: hay opciones y una de esas opciones es local. No es diferente con nuestro asistente de voz.

Piper: nuestro nuevo modelo de conversión de texto a voz local de alta calidad

Para habilitar soluciones de texto a voz de alta calidad localmente, necesitábamos crear nuestro propio sistema de texto a voz optimizado para ejecutarse en una Raspberry Pi 4. Se llama Piper.

Piper utiliza algoritmos modernos de aprendizaje automático para lograr un habla que suene realista, pero aún así puede producir audio rápidamente. En una Raspberry Pi 4, Piper puede generar 2 segundos de audio con solo 1 segundo de tiempo de procesamiento. Las CPU más potentes como la Intel Core i5 pueden producir 17 segundos de audio en la misma cantidad de tiempo. Muestra:

Consulte el sitio web de Piper para ver más ejemplos.

El complemento Home Assistant ahora está disponible con Piper con más de 40 voces en 18 idiomas, incluidos: catalán, danés, alemán, inglés, español, finlandés, francés, griego, italiano, kazajo, nepalí, holandés, noruego, polaco y brasileño. Portugués, ucraniano, vietnamita y chino. Voices for Piper se entrena a partir de conjuntos de datos de audio abiertos, muchos de los cuales provienen de audiolibros gratuitos leídos por voluntarios. Si estás interesado en contribuir con tu voz, ¡háznoslo saber!

También puedes ejecutar Piper como un contenedor Docker independiente.

Conversión de voz a texto local con OpenAI Whisper

Whisper es un modelo de conversión de voz a texto de código abierto creado por OpenAI que se ejecuta localmente. Desde su lanzamiento en 2022, la comunidad de código abierto ha mejorado Whisper para que se ejecute en hardware menos potente a través de proyectos como Whisper.cpp y Faster-Whisper. ¡En menos de un año de progreso, Whisper ahora puede proporcionar conversión de voz a texto para docenas de idiomas en servidores pequeños y computadoras de placa única!

Ahora hay disponible un complemento con Faster-Whisper para Home Assistant. En una Raspberry Pi 4, los comandos de voz pueden tardar unos 7 segundos en procesarse cuando se utilizan unos 200 MB de RAM. Una CPU Intel Core i5 o superior es capaz de ofrecer tiempos de respuesta inferiores a un segundo y ejecutar versiones más grandes (y más precisas) de Whisper.

También puedes ejecutar Whisper como un contenedor Docker independiente.

Wyoming: el pegamento del asistente de voz

Los asistentes de voz comparten muchas características comunes, como B. Voz a texto, reconocimiento de intención y texto a voz. Creamos el protocolo Wyoming para proporcionar un pequeño conjunto de mensajes estándar para comunicarnos con asistentes de voz, incluida la capacidad de transmitir audio.

Wyoming permite a los desarrolladores centrarse en el núcleo de un servicio de voz sin estar encerrados en una pila de red específica como HTTP o MQTT. Este protocolo es compatible con la próxima versión 3.0 de Rhasspy, lo que permitirá que ambos proyectos compartan servicios de voz.

Con Wyoming, estamos intentando lanzar un ecosistema de voz abierto más interoperable que facilite compartir componentes entre proyectos y plataformas. Los desarrolladores e investigadores que quieran experimentar con nuevas tecnologías de voz solo necesitan implementar un pequeño conjunto de mensajes para integrarlos con otros proyectos de asistentes de voz.

Los complementos Whisper y Piper mencionados anteriormente se integran con Home Assistant a través de la nueva integración de Wyoming. Los servicios de Wyoming también pueden ejecutarse en otras computadoras y aún estar integrados con Home Assistant.

Asistentes de voz con soporte ESPHome

ESPHome es nuestro software para microcontroladores. En lugar de programar, los usuarios definen en un archivo YAML cómo se conectan sus sensores. ESPHome lee este archivo y genera e instala software en su microcontrolador para que estos datos sean accesibles en Home Assistant.

Hoy lanzamos soporte para la creación de asistentes de voz con ESPHome. Conecte un micrófono a su dispositivo ESPHome y controle su hogar inteligente con su voz. Agregue un altavoz y la casa inteligente responderá.

Hemos centrado nuestras pruebas y desarrollo en el M5STACK ATOM Echo. Por $13, obtienes un micrófono y un altavoz en una pequeña y elegante caja. ¡Hemos creado un tutorial para convertir este dispositivo en un control remoto por voz directamente desde su navegador!

Tutorial: Construya un control remoto por voz de $13 para Home Assistant.

Documentación del asistente de voz ESPHome.

El asistente de voz más privado del mundo

Si tuvieras que diseñar el asistente de voz más privado del mundo, ¿qué características tendría? En primer lugar, sólo debe escuchar cuando esté listo para hablar, y no todo el tiempo. Y cuando responda, tú deberías ser el único que lo escuche. Eso me suena extrañamente familiar…🤔

¡Un teléfono! No, no el rectángulo monótono que llevas en el bolsillo; un teléfono analógico. Estas magníficas criaturas alguna vez gobernaron la tierra con cuerdas enredadas y una apariencia única que se adapta a tu estilo. Los teléfonos analógicos tienen una interfaz de usuario familiar difícil de superar: levante el teléfono para escuchar/hablar y déjelo cuando haya terminado.

Con la nueva integración de Voz sobre IP de Home Assistant, ahora puedes usar un teléfono «de la vieja escuela» para controlar tu hogar inteligente.

Si configura la marcación automática con el teléfono descolgado, su teléfono llamará automáticamente a Home Assistant cuando descuelgue. Di tu comando de voz o pregunta y escucha la respuesta. La conversación continúa todo el tiempo que quieras: di más comandos/preguntas o simplemente cuelga. Asigne un asistente/canal de voz único a cada adaptador VoIP, habilitando teléfonos dedicados para idiomas específicos.

Centramos nuestros esfuerzos iniciales en admitir la caja de voz sobre IP Grandstream HT801. Funciona con cualquier teléfono con conector RJ11 y se conecta directamente a Home Assistant. No se requiere ningún servidor adicional.

Tutorial: Crea tu propio asistente de voz más privado del mundo

Dale personalidad a tu asistente de voz con la integración de OpenAI.

Algunos enlaces en esta página son enlaces de afiliados y las compras realizadas a través de estos enlaces respaldan el proyecto Home Assistant.

[ad_2]

Subscribe to Updates

What's Hot

Año de la Voz – Capítulo 2: Hablemos