¿Es ya el momento de la voz?

IMAGE: Kittisak Taramas - 123RFApple anuncia que prepara un SDK para que los desarrolladores de apps puedan interactuar y tener acceso a la interfaz de voz Siri, y que utilizará ese asistente mejorado para lanzar un dispositivo estacionario para el salón posiblemente en el WWDC de este junio, un aparato del estilo del Amazon Echo o del recientemente anunciado Google Home de los que hablamos hace pocos días.

Con el movimiento, son ya tres de las grandes empresas tecnológicas compitiendo en un ámbito que se define cada vez más de una manera más clara, el de las interfaces de voz llevadas, además, al entorno doméstico, al salón de la casa. Los progresos llevados a cabo en el procesamiento de voz y en el análisis de lenguaje natural permiten que, hoy, la voz se configure como uno de los interfaces principales con el que interactuaremos con nuestros dispositivos… a pesar de que, paradójicamente, es un tema del que se lleva hablando muchísimos años y en el que el nivel real de uso es poco menos que anecdótico.

Hace pocos días, el noruego Dag Kittlaus, creador original de Siri que salió de la compañía de la manzana en octubre de 2011, presentó Viv, la que él considera una evolución del asistente personal que califica de “interfaz inteligente para todo“, que está aún en la fase de coming soon to devices near you”, y que se une a la cohorte de startups y compañías de todo tipo que animan el panorama de las interfaces de voz

La gran pregunta es qué llevaría a que una interfaz relativamente minoritaria y protagonista de todo tipo de anécdotas y chistes a convertirse, si las grandes empresas tecnológicas están en lo cierto en sus predicciones, en uno de los grandes protagonistas del futuro de la computación. Y la respuesta, una vez más, parece venir de las importantes mejoras experimentadas por la inteligencia artificial y el machine learning, capaces de generar una interacción cada vez más perfeccionada, con menos errores y con una gama más amplia de posibilidades. Ahora, si tomas tu smartphone e intentas interactuar con él a través de Siri o Google Now, la sensación es que, a pesar de la amplia base de datos que ya atesoran para educar a sus algoritmos, hablamos aún más de un juego que de otra cosa. Sí, puedes pedirle algunas tareas, te puedes ahorrar pulsaciones en el teclado para lanzar una búsqueda, te puede poner una canción, decirte qué tienes en la agenda o el tiempo que va a hacer, pero la impresión es que la cosa no pasa de ahí, y que al cabo de un rato, uno termina o bien sin saber qué diablos pedir, o bien diciendo alguna tontería. El ejercicio de desafiarse para intentar interactuar con el smartphone únicamente con la voz durante un cierto tiempo tiende a resultar bastante frustrante, a dejarnos una sensación de estar verdaderamente perdiendo el tiempo. Y sin embargo, a pesar de todo ello, todo indica que nos preparan un futuro basado en interfaces de voz situadas ya no solo en el terminal que llevamos en el bolsillo, sino en el mismísimo salón de nuestra casa.

En otros entornos, como el del dictado, la sensación es parecida. Llevamos años teniendo disponibles prestaciones que nos permiten dictar textos a nuestros ordenadores mediante interfaces como Dragon, con la que en algunos momentos llegué a tener una experiencia notable, o directamente activando determinadas funciones del sistema operativo, pero a pesar del tiempo que ha pasado desde que se lanzaron al mercado, el uso sigue siendo completamente testimonial salvo, lógicamente, en colectivos como el de los invidentes. Ver interactuar a un ciego con un dispositivo mediante la voz, con la pantalla apagada, genera una sensación extrañísima, pero parece claro que el desarrollo de este tipo de tecnologías ha reinventado su relación con la tecnología. Sin embargo, más allá de este colectivo, el uso sigue siendo muy minoritario, y lanzar comandos de viva voz sigue teniendo una cierta connotación de extravagancia. Y esa sensación, además, no parece adscribirse a ningún tipo de deriva generacional: no veo a los jóvenes hablando con sus smartphones más de lo que lo puede hacer la gente de mi edad.

¿Qué lleva a las empresas tecnológicas a tener tanta confianza en el papel de la voz como interfaz en el futuro? ¿Qué desarrollos podemos esperar que se conviertan en la verdadera killer application de las interfaces de voz, más allá de unos usos actuales que han dado de sí para un uso meramente anecdótico? Por mucho que Echo sea un éxito para Amazon y que muchos de sus clientes parezcan enamorados de Alexa, me cuesta imaginarme una popularización masiva de esta tecnología a falta de casos de uso verdaderamente interesantes, de integraciones que de verdad la doten de sentido. En muchos sentidos, el panorama de las interfaces de voz parece recordar a otros entornos y aplicaciones de la tecnología en los momentos previos a que Apple se pusiese a reinventarlas. ¿Supone el anuncio de Apple un intento de reinventar algo que, en mi opinión, ofrece aún desafíos muy importantes, o se trata simplemente de un movimiento de imitación?

Tras mucho tiempo probando interfaces de voz  y con una actitud seguramente más positiva que la media de usuarios, ver que las grandes tecnológicas apuestan decididamente por su uso sigue generándome cierto escepticismo, una situación en la que no suelo encontrarme cuando hablamos de tecnología: no dudo que llegarán, pero aún me parece que estamos muy lejos. ¿Soy el único en verlo así? ¿Estáis todos ya desde hace tiempo hablando sin parar con todos vuestros dispositivos y no me he enterado? 

 

This article is also available in English in my Medium page, “Is it time we started talking to our smartphones?”

 

33 comentarios

  • #001
    Rafa - 25 mayo 2016 - 14:54

    Apple va un poco por detrás. El movimiento del SDK no está mal pero comulgo completamente con lo que dice Marco Arment en este artículo que os dejo aquí: https://marco.org/2016/05/21/avoiding-blackberrys-fate y que viene a decir que es una carrera de largo plazo para la que Google y otros llevan invertido más o tal vez (el enfoque del artículo) mejor.

    • Enrique Dans - 25 mayo 2016 - 14:55

      Había visto el artículo, pero no había conectado los puntos… muchas gracias!!

      • Rafa - 25 mayo 2016 - 14:56

        De nada!

  • #004
    Gorki - 25 mayo 2016 - 15:13

    Siempre me ha resultado misterioso por qué estamos tan retrasados en el uso de voz. Hace ya años que podíamos mandar emails con mensajes hablados con mas rapidez que escritos, lo logico es que mucho de ellos nos llegaran asi ¿Por qué no se hizo? ¿Por qué no utilizamos habitualmente la voz en el WhatsApp, si estamos utilizando un teléfono?

    Pues si no utilizamos la voz donde resulta sencillo y practico, pensar que vamos a cambiar de canal de TV o encender la luz a voces, se me hace mucho mas cuesta arriba aun pensando que la tecnología lo haga posible y practico, mas probable veo que lo hagamos a traves de una App e por nuetro teléfomo, aunque no sea necesario..

    No se por qué, pero hay mucha resistencia a utilizar la voz. Quizá pase como pasó con los impresos en papel pijama. Se necesitó mucho tiempo hasta que la gente se acostumbró y prefirió a hacer consultas en una pantalla, que buscar el dato en un listado de 300 páginas. Pero de repente, como si todos se pusieran de acuerdo, dejaron de pedirte listados en papel pijama.

    • Rafa - 25 mayo 2016 - 15:16

      En mi opinión, una barrera de entrada puede ser el vocabulario personal de cada uno. Para conversaciones del día a día, hace falta un periodo de “entrenamiento”, similar a la de los teclados predictivos. Da mucha pereza corregir palabras en un texto ¿o no? Se pierde el factor “instantáneo”. Y seguro que mil cosas más que se me escapan.

    • Pablo - 25 mayo 2016 - 16:27

      Depende tambien de la cultura y verguenza. Por ejemplo en Japón es muy normal mandar los mensajes por voz..no tecleas sino que lo grabas.

      Pensándolo es más rápido y cómodo y sin embargo preferimos ir tecleando letra a letra.

    • Miguel - 25 mayo 2016 - 22:03

      Hola Gorki, la verdad es que no te falta razón pero creo que también hay un detalle de usabilidad que hoy en dia no existe en el dictado de voz. Yo por lo menos no he encontrado una aplicación que me permita escribir grandes y complejos textos sin que falle mas que una escopeta de feria. Si conoces alguna app para Android o de PC estaría encantado de que la dijeras. Ahora mismo por mi proyecto profesional estoy leyendo varios libros y tengo que tomar notas, lo he intentado hacer con el teclado de Google y una app que encontré, pero incluso vocalizando y haciéndolo despacio hay mucho errores y tengo que volver a corregir. Me da la sensación que voy mas deprisa cuando tomo las notas en el PC o a mano, incluso el hecho de tener que hablar vocalizando y con pausa a veces me hace perder el mismo hilo de mis pensamientos. Dame una aplicación que me permita hablar normal, con naturalidad y que no cometa errores en cada frase y la próxima vez que comente lo hare con ella. Siempre y cuando el hecho de utilizar la voz en vez de escribir no moleste a quien esta a mi lado, este tema también habría que considerarlo.

  • #008
    Isangi - 25 mayo 2016 - 15:29

    Yo creo que tanto E.d. como en los comentarios os olvidais de algún detalle de porque actualmente no hay un uso masivo(y creo que una gran pega también para que se popularice por mucho que mejore la tegnología):

    La privacidad/verguenza/ruido ambiente.

    Me explico con ejemplos:
    Si estoy en la oficina tratando con mi PC con la voz, es como una oficina llena de gente hablando por telefono, insoportable.
    Si estoy en mi casa y quiero buscar información sobre una chica guapa en mi movil, quizá no quiera que mi mujer se entere.
    Si voy por un lugar publico quizá no me interese que otros se enteren de mi conversación como si fuera con el manos libres del movil. (suponiendo que hablo y el movil me lee lo que otro conteste o me transmita mensajes de voz de otros etc) Además que me puede parecer que molesto innecesariamente a los demás.
    Y podría añadir el de seguridad(aunque ese quizá sea el más facilmente solventable), no puedo ir cantandole al movil mi pin/palabra secreta/email donde otros me están escuchando.

    • acerswap - 27 mayo 2016 - 02:34

      ¿Quieres una todavía más irónica? Dictar un correo electrónico al asistente de turno (que funciona enviando la voz al servidor del asistente, no en local) para que envíe esa transcripción mediante uno de esos servicios superencriptados chachi-piruli que ahora tanto se promocionan.

  • #010
    Jose Antonio Garcia - 25 mayo 2016 - 16:11

    Igual tiene que venir Apple con su varita mágica y empiezan a funcionar los asistentes de voz. El TTS que tiene actualmente de serie es muy bueno. Hace 20 años AT&T ya ofrecía una calidad similar.con sus Natural Voices. El motor de IBM ViaVoice 19 años.

    ¿Que es un Asistente?

    Simplificando: Reconocimiento Voz + Tratamiento IA + TTS

    Y cuando lo ponemos todo junto, se nos queda la mirada del hechicero de la tribu cuando se ve en un espejo

    1. Asistente en entorno profesional.

    La tozuda realidad es que solamente se podrán utilizar en espacios silenciosos donde el usuario pueda estar sin temor a ser oido o que se le escuche.
    En la pradera de la oficina, no

    2. Features Disponibles solo desde la nube

    El procesamiento y acceso a la IA exige qenviar datos para que se analice la voz, se pueda entender y expresarse en lenguaje natural, en tiempo casi real

    Esta claro que el modelo en la nube hoy por hoy es el único viable. Eso supone que se va a tener el micro abierto, o al menos que alguien desde Cuppertino, o que Mountain view sea Mountain Listening, no creo que se implante en el mundo profesional de negocios, al igual que no se estima profesionalemente oportuno tener una conference call via Skipe.

    La securitè francesa no parece que lo vaya a usar en sus pesquisas fiscales.

    3. Dotar a la asistente de Casos de Uso

    Una evolución lógica ( y que a mi juicio va primero) es mejorar el interfaz del buscador para que en una conversación natural te muestre resultados optimizados y no meras referencias a webs que ya existen. ( P.ej. preguntas como las que ya existen ¿Cuándo juega el Real Madrid? ) Para eso hay que invertir mucho en la infraestructura del servicio, i.e. casos de uso) La pregunta ¿Quien torea mañana en San Isidro? le queda por tanto un bastante más

    Si se lanzan SDK solo supone que un programador puede darle a un app la apariencia que le habla un SIRI personalizado, ¿pero también se podrán implementear casos de uso personalizado?
    Acudiendo al principio de la navaja de Oakland, nop

    4. Esperando el traductor

    Desde luego el lanzamiento estrella será que tu le hables al Asistente. p.ej. en una Conference y que el que te oye, te pueda escuchar en su lengua materna Y viceversa. Por ahora el mejor traductor gratuito (google) en lenguaje escrito es bastante efectivo aunque comete errores de bulto , pero día a día mejora

    Esto suena a Romuliano, pero estoy convencido que se hará en menos tiempo de lo que parece. ¿Pagando directamente ? no sé
    La política de google es una cosa, pero si hay gorrones por medio…

    5. Accesibilidad

    Puede ser muy importante para temas de accesibilidad y que personas invidentes puedan acceder con más comodidad al ordenador que la actual, lectura de textos, olvidarse en definitiva de la pantalla y el teclado

    Resumiendo : uso residencial mayoritario, pago indirecto, no habrá mucho desarrollo de casos de uso.
    Se implementarán estrategias de colaboración para reducir el impacto estilo te dejo usar el SDK pero los casos de usos son de mi propiedad….

  • #011
    Queimacasas - 25 mayo 2016 - 16:18

    Yo tampoco lo veo.
    En una oficina de trabajo … ¿todo el mundo hablando con el ordenador? menudo lío
    En casa, con la familia, ¿todo el mundo hablando con alguien que no está de cuerpo presente y no puede interactuar con todos a la vez?
    Y esta frase de @Gorki ” Hace ya años que podíamos mandar emails con mensajes hablados con mas rapidez que escritos” yo creo que es mentira
    se escribe más rápido que se habla, y todavía más rápido se pulsan botones en cacharros caseros: lavadoras, teles, etc …

    • Jose Antonio Garcia - 25 mayo 2016 - 16:34

      Completamente de acuerdo.

      Y además el acceso aleatorio a un texto.
      En un texto largo. Vas a leer lo que te interesa, en un audio tienes que oir todo
      Hoy en día se pueden escuchar los correos ( p.ej. con auriculares) pero no lo he hecho nunca. Miento para probar un TTS.
      Solamente lo veo útil en un streaming (p.ej. una conferencia TED) y poder oirla en tu idioma ( aunque yo sigo prefieriendo subtitulos si me interesa el idioma en cuestión) pero si es en japones igual prefiero que la señorita me hable.

  • #013
    Manolo - 25 mayo 2016 - 16:53

    Yo soy una persona ciega y dicto bastante poco. Solo lo hago con el teléfono para textos cortos pero no lo utilizo nunca para el ordenador, supongo que por costumbre pero también porque de momento con que tengas que corregir una palabra ya tardas más que si vas escribiendo.
    Otra cosa es la voz como accesibilidad de entrada a la información. El sistema de voiceover de mac que uso en casa o el jaws para windows del trabajo tienen voces muy buenas a las que además las personas ciegas estamos acostumbradas y podemos usar con velocidades muy altas cuando es necesario.
    Por lo que yo he visto, mis hijos acaban mucho más rápido abriendo una app con el dedo de lo que a mí me llevaría dictarla mediante comandos y creo que es ahí donde está otro problema.
    Yo no echo nada de menos entradas de voz pero sí que las páginas sean accesibles que es donde está la clave.
    Si algún día le puedes decir al teléfono que te saque un billete para un tren determinado, estaría muy bien pero si mientras tanto la página de Renfe fuera accesible, ya me apañaría.

  • #014
    Asier - 25 mayo 2016 - 17:46

    La voz es una herramienta de expresión y comunicación tan poderosa, tan humana, que si no hay una interacción dinámica con ‘el otro’ sentimos que está fuera de lugar utilizarla, que hay otras maneras más sencillas y eficientes para llevar a cabo la tarea (escribir un e-mail, encender luces, ejecutar una app, etc.).

    Como comenta Enrique la clave está en los desarrollos de inteligencia artificial, en cuanto un programa pueda interactuar con nosotros, aprenda de nuestros gustos, diferencie voces, comprenda lo que pedimos y conteste de manera coherente, ya me imagino a todos con nuestro asistente personal para todo: agenda, compras, información, recomendaciones… (y todas las aplicaciones que nos ofrecían esto en un ordenador a través de una pantalla, a tomar por saco).

  • #015
    Gorki - 25 mayo 2016 - 19:52

    He leido los comentarios y solo puedo decir una cosa a los comentaristas:
    ¡GRACIAS!, Porque me habeis dado luz en untema que yo no habia sabido encontrar la solucion.

    En especial doy las gracias a Manolo porque parecería que un ciego tendría en principio más sencillo dictar que escribir, pero ni aun asi lo hace de forma habitual, señal que las ventajas de escribir son mucho más profundas que todo lo que llegamos a pensar.

    En efecto, el escribir tiene algunas claras ventajas. Por ejemplo el que resulta dificil corregir lo dicho, que se pierde privacidad, molestas al público próximo. Son problemas en los que yo no había pensado y que son muy ciertos.

    Pero no estoy de acuerdo con todos los razonamientos:
    Por ejemplo el ruido ambiental, si ese ruido no molesta hablando por teléfono en la calle o en la oficina, no puede molestar para hacer dictados al ordenador, Siempre se pueden poner al micrófono del PC los filtros que se pongan a los micrófonos del móvil.

    Igual pasa con mi conversacion con el PC, si en una oficina no molesta que hable por teléfono, cada mesa tiene uno, ¿Por que va a molestar que hable con el PC?

    No entiendo porque se habla libremente y sin problemas por teléfono y se encontrarían tantas dificultades para hacerlo si es para dictar un Whats App. Sinceramente no lo entiendo.

    Tampoco es verdad que se escriba tan rápido como se habla, si no fuera así, no se habría inventado la taquigrafía ni el dictáfono.

    Tampoco estoy de acuerdo que para encender la luz sea más cómodo apretado un botón que diciendo “Enciende la lampara”. Pues es cierto, si el botón está al alcance de la mano, pero si está, como es habitual cerca del marco de la puerta, quiere que decir que te tienes que levantar del asiento, andar cuatro pasos hasta el marco de la puerta, dar al botón y volver a andar cuatro pasos para terminar sentándote de nuevo.

    Creo que debíamos profundizar en los motivos que tenemos para preferir el uso del texto sobre el de la voz, porque debe haber algo que se nos escapa y es fundamental y tan importante, que hasta a un ciego le resulte preferible escribir que hablar y “leer” que escuchar.

    • Rafa - 25 mayo 2016 - 20:05

      Muy de acuerdo con tus matizaciones.
      Me ha faltado en mis comentarios reconocer que ha habido avances y contar un poco para qué suelo usar yo la interfaz de voz.

      Tengo un reloj “listo” desde hace ya casi un par de años e indistintamente desde el mismo o desde el reloj uso con bastante precisión comandos muy concretos:
      – iniciar una cuenta atrás de 8 minutos (las pizzas, ya se sabe).
      – ¿cómo llegar a tal sitio?
      – ¿cuántos dólares son tantos euros?
      – ¿cómo se decía esto en inglés?
      – llamar a Restaurante casa Paca.

      No cabe duda de que en el caso de Google hay comandos predefinidos que han alcanzado notables cotas de precisión. Lo que más me está sorprendiendo de Google es que cada día te encuentras una cosa nueva. Están excelentemente posicionados.

      Siri, sin embargo, es otro modelo. Es el modelo del asistente. Sinceramente, creo que es el futuro pero lo veo poco maduro. Triunfarán cuando sepan aprender por y para el usuario, adaptándose a la experiencia de cada uno.

    • queimacasas - 26 mayo 2016 - 08:57

      Creo que te equivocas si piensas que hablar por teléfono en la oficina no molesta a los demás ;)

  • #018
    Mauricio - 25 mayo 2016 - 22:20

    Enrique, hace un par de años asistía a una de mis clases un excelente estudiante invidente, que siempre iba acompañado de su computadora portátil y que la usaba muy eficientemente, tanto para escuchar por medio de un auricular el material digitalizado de la asignatura como para escribir sus apuntes de clase. Nunca vi que usara ningún comando de voz y la verdad es que es algo que resulta entendible: si él hubiera estado trabajando solo en su habitación el uso de la voz no habría sido problemático, pero en el aula de un centro educativo posiblemente hubiera sido un elemento de distracción para el resto de participantes.

  • #019
    Joaquín - 25 mayo 2016 - 22:42

    Ah, pues yo lo veo, ¿qué queréis que os diga? Este mismo comentario lo estoy haciendo dictando al teléfono. Suelo usar los comandos que dice Enrique para crear un evento, consultar el tiempo o que me despierte dentro de 20 minutos si quiero echarme una siesta. Si voy en el coche, lo uso para llamar a quien sea sin usar las manos. Pido que me busque una canción en Youtube, el teléfono de alguna empresa o información sobre algo que me llama la atención en cualquier momento. Todo esto lo hace razonablemente bien el teléfono. Yo también usé Dragon Dictation en la época en que había que separar las palabras para que te entendiera, no podías hablar seguido… Y sí, es cierto, a veces falla, pero también tecleando el corrector te pone cosas que no quieres decir. Me sorprende que entienda palabras incluso en inglés como Shakespeare que no sé si sabría deletrear correctamente…

    Vale, mi teléfono ya entiende lo que digo y lo transforma en texto escrito. El siguiente paso es que entienda el contexto en el que estoy hablando para lograr cosas más complejas. Cosas cómo comprar un billete de avión, reservar en un restaurante o unas vacaciones, conseguir entradas para un espectáculo o comprar un producto mediante preguntas y respuestas. Conseguir que nuestros electrodomésticos sean más inteligentes y permitan ser programados con facilidad mediante nuestra voz. ¿Alguien se acuerda de lo complicado que era programar un vídeo? La idea es que puedas programar tu alarma, la temperatura de tu casa, cuándo tener comida o bebida caliente, o regar o dejar de regar el jardín.

    Mi mujer es invidente y usa habitualmente un iPhone con VoiceOver activado. No tiene una pantalla negra, es un iPhone normal que usa mediante gestos sobre la pantalla. Le pide a Siri que conteste emails, usa whatsapp indistintamente para mandar mensajes de voz o escritos, estos últimos dictados con la voz… Tal vez seamos unos usuarios marginales, pero le veo mucho futuro la voz…

    • Rafa - 26 mayo 2016 - 16:36

      ¿Cómo gestionas los signos de puntuación?

      • Joaquín - 26 mayo 2016 - 17:47

        Digo “coma”, “punto”, “punto punto punto”, “nuevo párrafo”… aunque lo anterior he tenido que escribirlo con el teclado, porque no entiende las comillas….

        • Bernardo PhD - 11 junio 2016 - 16:02

          Algo tiene tu telefono distinto al mio Rafa. El mio escribe “punto” “coma” “punto punto punto”.
          Decir “nuevo párrafo” si funciona.

  • #023
    Goomer - 25 mayo 2016 - 23:48

    Desde mi punto de vista, el pasar a la voz es para abandonar la necesidad del ordenador e incluso del móvil para ciertas tareas. Como podemos ver en Echo, Home, etc, la idea no es manejar nuestros dispositivos con la voz, sino uno nuevo que solo tenga esta interfaz, y que sea como el ordenador de las naves espaciales en las películas de ciencia ficción. En general usamos el navegador en el ordenador, y en móviles tendemos a usar más aplicaciones. Pues para esa “inteligencia doméstica” o como la queramos llamar, la idea sería usar solo la voz.

    Ahora bien, si lo hacen porque es la hora, o porque es el siguiente paso, y nadie quiere quedarse atrás por si acaso triunfa, está por ver.

    Sobre lo que dice Gorki, para mi el texto está por encima de la voz, puedes copiar y pegar, releerlo antes de publicarlo, echar un vistazo fácilmente de un golpe de vista, puedes buscar un fragmento, es mucho más cómodo. Pero esto no es dictar un texto, igual que con un móvil la mayoría de la gente no elabora densos documentos de miles de páginas. Esto es para pedir una pizza, llamar a un taxi, manejar las luces, o añadir algo a la lista de la compra. Es un asistente doméstico, y para este tipo de cosas, igual si puede ser mejor la voz que tener múltiples apps, o una guía de teléfonos si nos vamos más atrás..

    Pero como siempre suelo decir, una cosa es lo que la tecnología permita, y otra que la gente lo vea como algo útil o que quiera usar. ¿Igual esa apariencia “futurista” le puede jugar en contra? ¿igual para gente que viva sola por el contrario le sirve para darle compañía, o incluso más? Her: http://www.filmaffinity.com/es/film889720.html :D

  • #024
    Gorki - 26 mayo 2016 - 11:20

    He estado dando vueltas al asunto y creo que ya se lo que intentan tanto Google como Apple y Microsoft.

    El controlar el entorno con la voz, “escribe un email”, “baja la persiana”, “enciende la luz”, “sácame una entrada del cine”, etc. es el objetivo de la actual generación de asistentes digitales, Siri, Contana etc. Pero esto no es más que el primer peldaño de la escalera.

    Por otra parte avanza el controlar el entorno con el pensamiento, Si estáis al tanto de los últimos avances de dispositivos para tetrapléjicos, veréis que se están dando pasos de gigante en comprender directamente el cerebro por las variaciones de sus campos eléctricos.

    La suma de ambas cosas, es que te coloques una gorra que contiene miles de electrodos y diréctamete pienses, “enciende la luz”, para que se encienda la lámpara, o pienses “sube la calefacción”, para que aumente el termostato un par de grados, o pienses este comentario para que aparezca escrito en este blog.

    No es ciencia ficción, es posible en un futuro razonablemenete corto, pero para ello, entre otros campos, hay que avanzar en la comprensión del lenguaje, que es en lo que están ahora,

    • Goomer - 26 mayo 2016 - 20:02

      A la gorra o algo incluso menos intrusivo llegaremos, pero no creo que la intención generalista sea sustituir un cacharro grande como un ordenador, un cacharro mediano como un portátil, o un cacharro más o menos pequeño como un móvil por un gorro electrónico. Yo creo que el camino es a no depender de ningún dispositivo que tengamos que llevar encima, o que este sea lo más minimalista posible, y eso será una IA doméstica, que ya tenga forma de dispositivo estático como estos, o en un futuro pueda ser un robot asistente que incluso pueda residir en la nube. Yo creo que es ahí a donde vamos. Suma Google Home a Boston Dynamics, a los vehículos autónomos y lo que sale es ir hacia servicios y depender cada vez menos de los productos físicos. ¿+ Google y – Apple? Lo veremos :)

  • #026
    Jose Antonio Garcia - 26 mayo 2016 - 11:32

    Aquí está una app que traduce por voz casi en tiempo real y en la demo claro lo hace bien

    http://www.expansion.com/fueradeserie/tecno/2016/05/23/573effe7e2704e947d8b45f2.html?cid=SIN8901

    Por ahora será un juguete, pero es un buen comienzo
    Curioso que algo tan útil se haga desde una startup y que los grandes monstruos de los negocios estén a pot taxis. Cogito ergo sum.

    • Gorki - 26 mayo 2016 - 15:06

      El otro día vi un vídeo en el que una azafata hablaba en Japones por una especie de megáfono, y salia traducido al inglés. Pensé que todo lo que hemos gastado en hacer bilingües a los jóvenes españoles, puede que lo estamos tirando por la borda, porque en el futuro hayamos conseguido superar la barrera del idioma con este tipo de artefactos.

      • Jose Antonio Garcia - 26 mayo 2016 - 15:25

        Hay un viejo chascarrillo que cuentan:

        ¿Cómo se llama la persona que habla dos idiomas?
        – Bilingüe

        Si habla varios políglota,
        Y si habla uno

        A M E R I C A N O

        Que unos tenemos la fama pero otros,… son finos.

      • Rafa - 26 mayo 2016 - 16:38

        Hace un par de días volví de vacaciones de Japón y la verdad es que google translate usado con criterio puede ayudar bastante pero hay ciertos idiomas cuya construcción es muy diferente. Hace falta una gran masa de gente alimentando los sistemas de machine learning para que vaya tomando forma (me figuro). Hace uno o dos años (¿?) presentaron la traducción simultánea de Skype ¿lo habéis probado alguno?

      • Asier - 26 mayo 2016 - 17:39

        Ni nos imaginamos la cantidad de cosas que ahora están estudiando los jóvenes y no les va a servir para absolutamente nada cuando lleguen a la mediana edad.

  • #031
    Alberto - 26 mayo 2016 - 16:59

    Hola,

    Yo creo que la mayoría de barreras que se mencionan aquí existen, pero la mayoría creo que se irán salvando y las ventajas y los casos de uso irán emergiendo. Dejo aquí cuatro cositas que me invitan a pensar que esto tendrá éxito.

    Primero, ¿Por qué elegir cuando no hace falta? Se puede usar un interfaz por voz, uno táctil o uno escrito según convenga en cada contexto. Por ejemplo con las manos ocupadas (ya sea trabajando, cocinando, en la ducha, vistiéndose…) o con la atención visual fijada en otra cosa (conduciendo, vigilando a un niño, etc) un interfaz vocal es preferible aunque esté mas limitado y falle un poco.

    Segundo, es fácil y natural, ¿o no? ¿cómo se piden las cosas sencillas a otras personas? vale, a veces prefiero mandar un mail a alguien que tengo delante, pero normalmente parece que lo mas sencillo es pedir las cosas hablando.

    Tercero, es un interfaz inclusivo digitalmente. ¿Cuanta gente habla a Whatsapp? ¿No habéis visto un montón de gente mayor perder el miedo y empezar a usar smartphones sólo por eso?

    Cuarto, ¿quien ha dicho que sólo puede haber una inteligencia aritificial detrás de esto? Se me ocurren un montón de servicios que pueden desbordar en la atención de un operador si la AI no entiende algo

  • #032
    Krigan - 26 mayo 2016 - 22:35

    Tal vez no sea el momento de la voz, sino el momento de dispositivos como el Echo. Es decir, puede ser que sigamos tecleando mensajes en el Whatsapp, y escribiendo documentos en el PC, pero ¿cómo manejas un Echo? Si hubiera que manejarlo con un teclado sería un coñazo, y otro tanto si hubiera que coger el móvil para encender la luz o controlar un termostato.

    Si dices “pon música”, y te empieza a reproducir música clásica, y a continuación dices “jazz”, porque aunque sueles preferir la música clásica en ese momento te apetece un rato de jazz, eso es algo muy diferente de redactar este mismo mensaje, comprobando que esté bien escrito, y corrigiendo los errores.

    Y con lo de encender la luz lo mismo. No necesitas una pantalla para comprobar el resultado, la luz se encendió o no. No es demasiado oneroso si ocasionalmente tienes que repetir “enciende la luz” porque la primera vez que lo dijiste pasaba una moto ruidosa por la calle. Más oneroso es tener que levantarte el 100% de las veces a darle al interruptor.

    El Echo también te lee audiolibros, pero para eso creo que no será muy usado, como demuestra el hecho de que con el móvil y con el tablet lo que hacemos es leer los libros, no escucharlos.

    Amazon se va a forrar. Un Echo para el salón, otro para la cocina, otro por cada dormitorio… no es extraño que Google y Apple también quieran entrar. Eso, y también que quien controla el Echo/Home/iLoquesea está controlando la interacción con el usuario para un montón de tareas. No para todas, tal vez ni siquiera para la mayoría, pero sí para muchas.

  • #033
    Pablo Martínez-Almeida - 27 mayo 2016 - 10:06

    Este es un tema muy importante para la batalla que libran las grandes: Google, Apple, Facebook…

    En mi opinión el post de Marco que comentan Rafa y Enrique más arriba señala el peligro que representa la inteligencia artificial para el modelo de apps de Apple (mi hilo de tuits al respecto). La voz como interfaz dominante no haría sino acrecentar dicho riesgo.

    El actual sistema basado en aplicaciones (apps) conlleva trabajo para el usuario, uso de una aplicaciones para cada uso o necesidad, requerimientos de memoria disponible, gestión de actualizaciones, etc.

    La inteligencia artificial busca anticiparse a nuestras necesidades y reducir así nuestra inversión de tiempo y esfuerzo, lo que puede llevar a que las apps sean invisibles para el usuario. Esto repercutiría en la manera de vender el producto. Podríamos pasar así de un sistema de pago por aplicación a un servicio de suscripción en el que pagaríamos una cantidad fija por un nivel de servicio. En este nuevo sistema la Inteligencia artificial de mi dispositivo (que puede ser del fabricante o de un tercero) se encargaría de lidiar con una multitud de apps para conseguir la información/servicio que necesito/quiero.

    Si la inteligencia artificial se dedica a buscar la mejor solución para mí esto tienen implicaciones muy importantes para el negocio de apps. La competencia entre estas se hace más dura, pues son invisibles para el cliente. Teóricamente ello favorecería la meritocracia entre apps, aunque haría falta desarrollar algún sistema de medición y clasificación de resultados y feedback de aquellas: ¿cuál es la mejor app para responder a esta petición en este momento y según las preferencias y restricciones del usuario?

    Por otra parte, si las apps son instaladas y actualizadas en la nube ello ahorraría memoria y daría los mejores resultados al usuario sin depender tanto del dispositivo. En ese escenario el dispositivo sería menos importante de lo que es ahora. Es cierto, sin embargo, que ello precisaría de una conexión rápida y fiable (a precio razonable) y no tiene en cuenta los requerimientos de hardware de la realidad virtual y aumentada.

    Y ahora entra la voz como intefaz ideal para la inteligencia artificial. La voz, que como comento más arriba, aumenta la probabilidad de que el sistema de apps pase a la historia, presenta ventajas. Por ejemplo, tuiteaba Benedict Evans hace unos días “Voice is the only UI that can work unchanged across any different consumer device connected to the Internet”.

    De todas maneras también veo algunos problemas que pueden restringir el uso generalizado de la voz como interfaz:
    – De privacidad: no quiero que la gente sepa qué estoy haciendo.
    – De seguridad: no quiero que se filtre cierta información. Por ejemplo, pensemos en la posibilidad de replicar la voz del usuario para hackear su dispositivo y acceder a su información/servicios/etc.
    – Sociales: imaginemos a toda la gente que interactúa con sus dispositivos en espacios públicos, hablando con estos. Puede no ser muy agradable. ¿Veremos una cierta vuelta a la era pre-smartphone, cuando la gente usaba sus teléfonos para conversar? Antes con personas, ahora con software.

    Las citadas consideraciones limitarían el uso de la voz, particularmente para ciertos usos y en ciertos ambientes, aunque creo que su adopción será mayoritaria en poco tiempo.

Dejar un Comentario

Los comentarios están cerrados