Alexa, ¿cómo funciona Siri? Control de voz explicado

Ahora podemos hablar con casi todos nuestros dispositivos, pero ¿exactamente cómo funciona? Cuando pidas “Que canción es esta?” o decir “Llama a mama”, Está ocurriendo un milagro de la tecnología moderna. Y si bien parece que está a la vanguardia, esta idea de hablar con dispositivos se remonta a décadas, casi tan lejos como a las mochilas en la ciencia ficción.!

Hoy en día, la mayor parte de la atención prestada a la computación basada en voz se encuentra en los teléfonos inteligentes. Apple, Amazon, Microsoft y Google están en la parte superior de la cadena, cada uno ofrece su propia manera de hablar con la electrónica. Sabías quiénes son: Siri, Alexa, Cortana y los anónimos “Está bien Google” siendo. Lo que plantea una gran pregunta ...

¿Cómo un dispositivo toma palabras habladas y las convierte en comandos que puede entender? En esencia, se trata de hacer coincidir patrones y hacer predicciones basadas en esos patrones. Más específicamente, el reconocimiento de voz es una tarea compleja que proviene de Modelado acústico y Modelado de lenguaje.

Modelado acústico: formas de onda y teléfonos

El modelado acústico es el proceso de tomar una forma de onda del habla y analizarla utilizando modelos estadísticos. El método más común para esto es Modelado oculto de Markov, que se usa en lo que se llama modelado de pronunciación para dividir el habla en partes componentes llamadas teléfonos (no debe confundirse con dispositivos telefónicos reales). Microsoft ha sido un investigador líder en este campo durante muchos años..

Modelado de Markov oculto: Estados de probabilidad

El modelo de Markov oculto es un modelo matemático predictivo en el que el estado actual se determina mediante el análisis de la salida. Wikipedia tiene un gran ejemplo usando dos amigos..

Imagina dos amigos, Local Friend y Remote Friend, que viven en diferentes ciudades. Local Friend quiere descubrir cómo es el clima donde vive Remote Friend, pero Remote Friend solo quiere hablar sobre lo que hizo ese día: caminar, comprar o limpiar. La probabilidad de cada actividad dependiendo del clima del día..

Pretenda que esta es la única información disponible. Con esto, Local Friend puede encontrar tendencias sobre cómo cambió el clima día a día y, al usar estas tendencias, puede comenzar a hacer conjeturas informadas sobre qué clima de hoy se basará en la actividad de su amiga ayer. (Puedes ver un diagrama del sistema arriba.)

Si desea un ejemplo más complejo, vea este ejemplo en Matlab. En el reconocimiento de voz, este modelo compara esencialmente cada parte de la forma de onda con lo que viene antes y lo que viene después, y con un diccionario de formas de onda para averiguar lo que se dice.

Esencialmente, si haces una “th” sonido, va a comparar ese sonido con los sonidos más probables que generalmente vienen antes y después de él. Tal vez eso significa verificar contra “mi” sonido, el “a” sonido, y así sucesivamente. Cuando el patrón coincide correctamente, entonces tiene toda tu palabra. Esto es una simplificación excesiva, pero puede ver la explicación completa de Microsoft aquí.

Modelado de lenguaje: más que sonido

El modelado acústico ayuda mucho a que su computadora lo entienda, pero ¿qué pasa con los homónimos y las variaciones regionales en la pronunciación? Ahí es donde entra en juego el modelado lingüístico. Google ha impulsado mucha investigación en esta área, principalmente a través del uso de Modelado N-gramo.

Cuando Google está tratando de entender su discurso, lo hace basándose en modelos derivados de su banco masivo de búsqueda por voz y transcripciones de YouTube. Todas esas leyendas de video hilarantemente incorrectas han ayudado a Google a evolucionar sus diccionarios. Además, utilizaron el ausente GOOG-411 para recopilar información sobre cómo habla la gente.

Toda esta colección de idiomas creó una amplia gama de pronunciaciones y dialectos, lo que se convirtió en un diccionario sólido de palabras y de cómo suenan. Esto permite coincidencias que tienen una tasa de error mucho más reducida que la coincidencia de fuerza bruta basada en probabilidades brutas. Puedes leer un breve artículo describiendo sus métodos aquí.

Si bien Google es un líder en este campo, se están desarrollando otros modelos matemáticos, que incluyen modelos espaciales continuos y modelos de lenguaje posicional, que son técnicas más avanzadas que surgen de la investigación en inteligencia artificial. Estos métodos se basan en replicar el tipo de razonamiento que los humanos hacen cuando se escuchan unos a otros. Estos son mucho más avanzados tanto en términos de la tecnología detrás de ellos, como también en las matemáticas y la programación necesarias para trazar estos modelos..

Modelado N-Gram: La probabilidad se encuentra con la memoria

El modelado N-gram funciona según las probabilidades, pero utiliza un diccionario de palabras existente para crear un árbol de posibilidades de ramificación, que luego se suaviza por razones de eficiencia. En cierto modo, esto significa que el modelado N-gram elimina toda la incertidumbre en el mencionado Modelado oculto de Markov..

Como se señaló anteriormente, la fuerza de este método proviene de tener un gran diccionario de palabras y uso, no solo primitivo sonidos. Esto le da al programa la capacidad de distinguir la diferencia entre los homófonos, como “golpear” y “remolacha”. Es contextual, lo que significa que cuando se habla de los puntajes de la noche anterior, el programa no está diciendo palabras sobre el borscht..

Pero estos modelos en realidad no son los mejores para el lenguaje, principalmente debido a problemas con probabilidades de palabras en frases más largas. A medida que agrega más palabras a una oración, este modelo se aleja un poco porque es poco probable que sus primeras palabras hayan cargado todo lo necesario para su pensamiento completo.

Sin embargo, es simple y fácil de implementar, por lo que es un gran complemento para una empresa como Google que disfruta lanzando servidores a problemas informáticos. Puedes seguir leyendo sobre N-gram Modelieng en la Universidad de Washington, o puedes ver una conferencia en Coursera.

Gritar en las nubes: aplicaciones y dispositivos

Cualquiera que haya usado Siri conoce la frustración de una conexión de red lenta. Esto se debe a que sus comandos a Siri se envían a través de la red para que Apple los decodifique. Cortana para Windows Phone también requiere una conexión de red para funcionar correctamente. En contraste, sin embargo, Amazon Echo es solo un altavoz Bluetooth sin Internet..

¿Por qué la diferencia? Porque Siri y Cortana necesitan servidores pesados para decodificar tu discurso. ¿Podría hacerse en tu teléfono o tableta? Claro, pero mataría su rendimiento y la duración de la batería en el proceso. Simplemente tiene más sentido descargar el procesamiento a máquinas dedicadas..

Piénsalo de esta manera: tu comando es un auto atrapado en el barro. Probablemente podría presionarlo con suficiente tiempo y esfuerzo, pero tomará horas y lo dejará exhausto. En su lugar, llama a la asistencia en la carretera y le sacan el automóvil en solo unos minutos. El inconveniente es que tiene que hacer la llamada y esperarlos, pero sigue siendo más rápido y menos exigente..

Los modelos de escritorio como Nuance tienden a usar recursos locales debido al hardware más poderoso. Después de todo, en palabras de Steve Jobs, su escritorio es un camión. (Lo que hace que sea un poco tonto que OS X esté utilizando servidores para su procesamiento). Por lo tanto, cuando necesita procesar el lenguaje y la voz, ya está lo suficientemente bien equipado como para manejarlo por sí solo..

Por otro lado, Android permite a los desarrolladores incluir el reconocimiento de voz sin conexión en sus aplicaciones. A Google le gusta adelantarse a la tecnología, y puedes apostar a que las otras plataformas obtendrán esta capacidad a medida que su hardware se vuelva más poderoso. A nadie le gusta cuando la mala cobertura o la mala recepción lobotiza su dispositivo..

Comience a usar comandos de voz ahora

Ahora que conoce los conceptos fundamentales, debe jugar con sus diversos dispositivos. Pruebe la nueva escritura de voz en Google Docs Cómo la escritura de voz es la mejor característica de Google Docs Cómo la escritura de voz es la mejor característica de Google Docs El reconocimiento de voz ha mejorado a pasos agigantados en los últimos años. A principios de esta semana, Google finalmente introdujo la escritura de voz en Google Docs. ¿Pero es bueno? ¡Vamos a averiguar! Lee mas . Como si la suite de oficina web no fuera lo suficientemente poderosa, el control por voz le permite dictar y formatear completamente sus documentos. Esto amplía la poderosa tecnología que ya diseñaron para Chrome y Android..

Otras ideas incluyen configurar su Mac para usar comandos de voz Cómo usar los comandos de voz en su Mac Cómo usar los comandos de voz en su Mac Lea más y configurar su Amazon Echo con verificación automática Cómo Amazon Echo puede hacer de su hogar una casa inteligente Cómo Amazon Echo puede hacer de su hogar un hogar inteligente La tecnología de hogares inteligentes se encuentra aún en sus inicios, pero un nuevo producto de Amazon llamado "Echo" puede ayudar a que se incorpore a la corriente principal. Lee mas . Vive en el futuro y acepta hablar con tus gadgets, incluso si solo estás pidiendo más toallas de papel. Si eres un adicto a los teléfonos inteligentes, también tenemos tutoriales para Siri 8 cosas que probablemente no sabías que Siri podía hacer 8 cosas que probablemente no sabías que Siri podía hacer Siri se ha convertido en una de las características definitorias del iPhone, pero para Mucha gente, no siempre es la más útil. Si bien parte de esto se debe a las limitaciones del reconocimiento de voz, la rareza de usar ... Leer más, Cortana 6: las cosas más geniales que puedes controlar con Cortana en Windows 10 6 las cosas más geniales que puedes controlar con Cortana en Windows 10 Cortana te puede ayudar. -free en Windows 10. Puede dejar que busque en sus archivos y en la web, realice cálculos o obtenga el pronóstico del tiempo. Aquí cubrimos algunas de sus habilidades más geniales. Lea más, y Android OK, Google: 20 cosas útiles que puede decirle a su teléfono Android OK, Google: 20 cosas útiles que puede decirle a su teléfono Android El Asistente de Google puede ayudarlo a hacer muchas cosas en su teléfono. Aquí hay un montón de comandos OK de Google básicos pero útiles para probar. Lee mas .

¿Cuál es tu uso favorito de control de voz? Háganos saber en los comentarios..

Créditos de imagen: T-flex a través de Shutterstock, Terencehonles a través de Wikimedia Foundation, Arizona State, Cienpies Design a través de Shutterstock

Explore más acerca de: Amazon Echo, Microsoft Cortana, OK Google, Siri, comandos de voz.

« Alertificación Obtenga notificaciones por correo electrónico y mensajes de texto cuando bajen los precios en línea de los artículos Alexa ahora puede crear listas sin fin para ti »