Los asistentes de voz están empezando a formar parte de nuestras rutinas cotidianas. Siri, el Asistente de Google, Alexa de Amazon o Bixby de Samsung son algunos de los más conocidos. Cortana de Microsoft, o asistentes “propietarios” como el que usa Ali Baba para gestionar pedidos telefónicos son otros ejemplos. Esta sería una forma clásica de arrancar un artículo, aunque en este caso, hay que matizar que estos asistentes ya “llevan empezando” a formar parte de nuestras rutinas cotidianas desde hace algunos años, por lo que esta expresión puede parecer un poco extraña.
Estamos ante una tecnología con mucho potencial, pero con un despegue lento. En parte, porque los asistentes se asocian con la Inteligencia Artificial, y la IA también experimenta un avance lento a pesar de que se habla de ella como la panacea de nuestros problemas, y la puerta abierta a un mundo perfecto de dispositivos inteligentes con los que podremos conversar como si fueran personas.

La realidad es que la IA que se usa actualmente es esencialmente la misma que se planteó a mediados del siglo pasado. Lo que ha cambiado es la potencia de los ordenadores actuales e incluso la de los smartphones, que permite que los algoritmos de aprendizaje máquina que se planteaban entonces como habilitadores de la IA sean funcionales en la práctica. Hoy en día ya es posible habilitar funciones de reconocimiento de voz y de imágenes en los ordenadores, teléfonos, tabletas, televisiones o incluso dispositivos dedicados a las tareas de asistentes como son los altavoces inteligentes, o ahora las pantallas inteligentes.
La clave está en el uso de la voz como interfaz, y en el empleo de expresiones de lenguaje natural para interactuar con estos asistentes a la hora de solicitar sus servicios. En la práctica, estos asistentes se comportan mejor de lo que cabría esperar hace tan solo una década, pero peor de lo que nuestra imaginación podría imaginar a partir de lo que se ha ido publicando estos años al respecto, especialmente en medios generalistas.
La IA que conocemos hoy en general, y los asistentes en particular, se basan en métodos y algoritmos estadísticos. Infieren a partir de ingentes cantidades de datos que se usan para “enseñar” una determinada tarea a un sistema de IA: desde reconocer la voz, hasta jugar al Go o al ajedrez, pasando por el reconocimiento de imágenes o el escalado de vídeo o el desenfoque selectivo de un fondo en una foto de retrato. En 1962, Arthur Samuel consiguió diseñar un sistema basado en machine learning para jugar al tres en raya que, en 1962, batió al campeón local de Connecticut. No es un logro esencialmente diferente conceptualmente hablando, de lo que sucede hoy en día con el juego del Go y AlphaGo, el programa desarrollado por Deep Mind de Google, que consiguió batir al campeón mundial por un contundente 100 a 0.

Y estos métodos y algoritmos precisan de una potencia de procesamiento enorme para que sean realidad. Ya sea en la parte del entrenamiento, o en la de la ejecución del modelo estadístico calculado durante el entrenamiento. Los proveedores de servicios de IA, tales como Google, Apple, Amazon, Microsoft o Samsung entre otros, precisan de una infraestructura cloud generosamente dimensionada para que la experiencia de uso de sus asistentes sea óptima. O tan buena como sea posible. En la práctica, esta experiencia ya está a disposición de los usuarios de un modo generalizado, en forma del Asistente de Google, Siri, Alexa de Amazon, Cortana de Microsoft, o Bixby de Samsung.
Cortana de Microsoft, a pesar de ser el asistente que viene con Windows 10, no es especialmente popular en cuanto a uso cotidiano. De hecho, Microsoft está empezando a fomentar el uso de Alexa en los equipos con las versiones Build más recientes, aunque de momento solo está disponible en inglés y con cuentas creadas en Estados Unidos. Es de esperar que Alexa para PC esté también disponible en español en los próximos meses. De este modo será posible, entre otras cosas, gestionar el PC desde dispositivos Echo, configurar dispositivos Echo como altavoces para el PC, o usar el PC como si fuera un dispositivo Echo Show con todas las opciones de streaming de contenidos o de videollamadas con las que cuentan los Echo Show. También se habla de que el Asistente de Google podrá tener una versión para equipos PC con Windows 10, aunque de momento es una especulación.

Siri para equipos Mac ya funciona y está muy bien integrado con los ordenadores de sobremesa y portátiles de Apple. Siri permite desde buscar archivos hasta ofrecer información que pidamos que busque en Internet, mostrar fotos, reproducir música o integrarse con aplicaciones como Twitter. También permite realizar videollamadas mediante FaceTme, por ejemplo. En cuanto a Bixby de Samsung, es una propuesta integrada en los dispositivos móviles y televisiones de esta compañía, que recientemente ha adoptado el idioma español, aunque su adopción es marginal.
Nosotros nos centraremos en los asistentes de Google, y más concretamente en los que se integran en sus soluciones con pantalla. Para ello contamos con el Lenovo Smart Display de 10’’ y con el Google Nest Hub . Amazon cuenta con el Amazon Echo Show 5 con pantalla de 5’’ y el Amazon Echo Show de segunda generación con pantalla de 10’’, aunque, por lo pronto, nos centraremos en las propuestas de Google.