Cómo hacer que tu asistente de voz te entienda mejor

francisco perez yoma siri google now

Si hablar en voz alta con Siri (o con tu asistente digital preferida) no te parece normal, no eres el único. He tenido a Siri desde siempre, pero puedo contar con una mano el número de veces que he hablado con ella. Siempre me ha parecido más fácil abrir una aplicación en mi iPhone o escribir una consulta de Google y obtener exactamente lo que estoy buscando, en lugar de estar preguntando a Siri para que finalmente solo algunas veces me lleve a la respuesta correcta.
Además es difícil superar lo raro que se siente hablar con un objeto inanimado. Muchos de nosotros todavía luchamos con la idea de tratar a nuestros asistentes de voz como seres reales, vivos, capaces de entablar una conversación humana. De hecho, casi el 60 por ciento de las personas dicen que cambian su forma de hablar cuando le hablan a un robot.

Hablamos con expertos en reconocimiento de voz, procesamiento del lenguaje y aprendizaje de la máquina para determinar exactamente cómo deberíamos interactuar con nuestros asistentes de voz - asistente de Google y Siri- para obtener la información que queremos y evitar el temido: "Lo siento, no puedo ayudar con eso". Esto es lo que necesitas saber:


Dale un poco de tiempo para que tu solicitud sea procesada


Las máquinas primero toman los sonidos de nuestra habla y los traducen en palabras, de manera similar al dictado. Pero en realidad no pueden hacer nada con esas palabras a menos que si puedan darle sentido a la transcripción. Los seres humanos pueden escribir los sonidos que escuchamos en diferentes idiomas con un nivel razonable de precisión, pero eso no significa que podamos entender su significado.

Eso es lo que hace que los asistentes de voz parezcan "inteligentes": procesan y entienden el habla humana natural y responden a ella. Pero esto es realmente una tarea bastante simple, dice Candy Sidner, profesora de ciencias de la computación en el Instituto Politécnico de Worcester.

"Los asistentes de voz están esencialmente programados para hacer ciertos tipos de cosas, así que están desmenuzando las expresiones que se les presentan y luego las convierten en una búsqueda en la web".

Sidner añade que siempre hay un hueco entre el final de una pregunta y la respuesta de un celular para tener en cuenta el tiempo de procesamiento, especialmente cuando tiene que entender que escribir una consulta directamente en Google no requiere ese paso adicional. 

Haz tus preguntas tan específicas como sea posible para obtener el mejor resultado individual, y dale al asistente la oportunidad de recuperar y transmitir una respuesta antes de dar seguimiento o asumir que Siri te escuchó mal.

Habla con Siri como si fuera tu amiga


francisco perez yoma consejos asistente voz


Los asistentes de voz son entrenados usando patrones de habla humana. Esto significa que hablar a un volumen más alto o a un ritmo más lento, sobre-enunciar sus palabras, o sobre-simplificar sus preguntas en realidad hará que sus consultas sean menos exitosas. Imagina que Siri y el Asistente de Google son personas sentadas a tu lado, no voces en dispositivos inanimados, y es más probable que procesen tus consultas correctamente.

"Cuando el sistema no lo entiende, la gente tiende a hablar en lenguaje robótico y se vuelve más fuerte y nítida, lo cual es gracioso porque los datos están construidos sobre un lenguaje humano real y natural", dice Cathy Pearl, directora de diseño de conversaciones de Google. "El modelo de datos es más accesible cuando hablas con más naturalidad, sin gritar ni enunciar demasiado."

No trates de encubrir tu acento

Los expertos dicen que los asistentes de voz son sorprendentemente receptivos a los acentos de los usuarios, si han sido entrenados en el uso del habla humana en un idioma o región en particular.

"La razón por la que el reconocimiento de voz funciona tan bien como lo hace hoy en día es porque tenemos varios años grabando expresiones o frases reales", dice Pearl. "Tenemos que pensar en las diferentes maneras en que la gente habla e interactúa con el mundo cuando nos localizamos en diferentes países".

Puede ser más difícil para un asistente de voz analizar el habla de un hablante de inglés no nativo o no americano que diferenciar entre usuarios de Nueva York y Alabama, pero todos ofrecen varias alternativas de acento en inglés. Si el dispositivo tiene ajustes para el acento (por ejemplo, inglés británico), puede cambiar a ese modo para un procesamiento más preciso. En general, incluso sin una configuración especial, obtendrás los mejores resultados si hablas con naturalidad.

Siri y el Asistente de Google también pueden entender diferentes idiomas, si los configuras de esa manera. Los idiomas soportados son bastante limitados dependiendo del asistente. Por ejemplo, Google Assistant tiene varias configuraciones disponibles en teléfonos y tabletas habilitadas, y Google espera tener más de 30 idiomas habilitados para finales de este año. Siri soporta 20 idiomas, con una serie de dialectos adicionales en varios de ellos.


Estar dispuesto a reformularse o repetirse


Es fácil enfadarse cuando tu asistente de voz no entiende tu pregunta la primera vez que la haces, pero los humanos tampoco siempre son buenos en esto.

"Una solución que tiene el sistema cuando no entiende es decir: 'No lo entendí'. Alexander Rudnicky, profesor emérito del Instituto de Tecnologías del Lenguaje de la Universidad Carnegie Mellon señala. "Una forma razonable para que Siri te pueda entender es solo decirlo de otra manera".

Cuando es probable que un humano responda con "huh", "qué" o con una mirada en blanco, su asistente al menos reconocerá su petición y dirá "lo siento" cuando necesite más información, no lo entienda, no pueda obtener una respuesta o no haya sido entrenado en ciertas frases o tipos de preguntas.

Aunque los asistentes de voz no requieren que los usuarios se atengan a un guión, pueden malinterpretar una solicitud o tomar acciones incorrectas debido a la forma en que el usuario fórmula su pregunta. Por ejemplo, si le dices a Google Assistant, "Toca las nuevas canciones de Jason Derulo", puede que reconozca al artista primero en lugar de la canción y responda con "Muy bien, aquí está Jason Derulo en Spotify", que no es exactamente lo que estabas pidiendo. Si reescribes la petición de "Play Colors de Jason Derulo," la respuesta es, "Colors de Jason Derulo, claro, reproduciendo en Spotify".

Por lo general, los asistentes de voz responden mejor a las solicitudes simples, directas y específicas, de modo que si descubres que tu dispositivo no está haciendo lo que pides, intenta reformular la consulta.


No esperes respuestas complejas o matizadas


Los expertos están de acuerdo en que aunque los asistentes de voz son bastante buenos respondiendo a preguntas sencillas y conociendo las preferencias básicas de los usuarios, carecen de la capacidad de entender el contexto de la forma en que lo hacen los humanos.
Cuando un asistente de voz no puede captar el contexto, generalmente no será capaz de responder apropiadamente. Si le preguntas al asistente de Google: "¿Ya está Paddington 2 en Netflix?", te dirá: "Mis disculpas... no entiendo". En este caso, la palabra "está" tiene múltiples interpretaciones, dice Pearl. Si el usuario solicita una acción específica - "¿Puedes transmitir Paddington 2 en Netflix?" - el contexto es claro y el asistente responde con "Busqué Paddington 2 en Netflix, pero no está disponible o no se puede reproducir ahora mismo".

Aunque los asistentes de voz pueden controlar nuestros dispositivos caseros inteligentes, reproducir música, dar un informe meteorológico y solicitar un Uber, les queda mucho por aprender sobre la conversación humana.

"De alguna manera, estos asistentes son muy inteligentes", dice Pearl. "Conocen muchos hechos. Pero de alguna manera son muy tontos. No tienen mucho sentido común sobre cómo funciona el mundo".