Hace unos quince días recibí un mensaje de ZN, una empresa belga de eMarketing que trabaja para Nuance, creadora de Dragon NaturallySpeaking, el programa líder en reconocimiento de voz. La empresa ha puesto en marcha una campaña titulada “Dragon NaturallySpeaking 9 da la voz a los usuarios de blogs” mediante la cual envía el programa a aquellos bloggers que estén dispuestos a probarlo. Tras un breve intercambio de mensajes en el que clarificamos las condiciones de la prueba, (la empresa pretendía acordar un cierto número de entradas escritas a la semana escritas mediante el programa y con mención del mismo, condición que yo no acepté), recibí el programa hace pocos días, y lo instalé finalmente ayer. La versión recibida es la Standard (€85), hay además una versión Preferred de €199 y otras versiones en la web en inglés adaptadas a determinados usos, como Medical o Legal. Para Mac, la versión que veo en la web es IBM ViaVoice, una tecnología que creo recordar que IBM vendió a Nuance hace algunos años, convirtiéndola así de facto en un competidor prácticamente monopolístico.
No es mi primera experiencia con el reconocimiento de voz ni con Dragon NaturallySpeaking. Hace pocos años tuve bastante contacto con una versión anterior del programa, que utilicé profusamente para la transcripción de entrevistas grabadas para el desarrollo de casos académicos, y llegué a escribir un testimonio para la empresa que lo distribuía, Speech Recognition Ware. Aquella versión se estuvo utilizando, después de mis pruebas iniciales, durante bastante tiempo en el área de Sistemas y Tecnologías de Información del Instituto de Empresa, y produjo una notable mejora de la productividad en las habitualmente muy tediosas tareas de transcripción literal de entrevistas grabadas. El procedimiento consistía en utilizar la entrada de audio para reproducir la grabación de la entrevista, que el operador repetía con su propia voz a medida que la iba escuchando, una tarea que habitualmente había que realizar con el teclado y que dependía por tanto de las habilidades mecanográficas del operador. Al principio, la precisión del programa no era perfecta, pero al cabo de cierto tiempo de uso mejoraba notablemente en función de la práctica y el entrenamiento del operador. El proceso de entrenamiento provocaba una mejora notable en el rendimiento del programa frente al primer contacto con el mismo, y cada operador guardaba su perfil de voz en un archivo personal. Recuerdo especialmente el caso de una persona que entró en el departamento, muy competente y con un marcado acento andaluz: durante la entrevista, nos hizo dudar de si el programa sería capaz de reconocer adecuadamente su vocalización de palabras – no tengo nada en contra del acento andaluz, es más, me parece precioso, pero para mi oído no era seguramente lo más claro y fácil de seguir del mundo. El programa, tras un breve entrenamiento, pudo reconocerla perfectamente y con un número de errores incluso inferior al de otros operadores.
En la versión que he recibido y acabo de instalar, y que estoy además utilizando para escribir esta entrada, la primera diferencia que percibo es la impresionante precisión del reconocimiento de palabras. La instalación es relativamente rápida, el programa ocupa en torno a los 300 MB y, tras dicha instalación, el usuario debe realizar un breve entrenamiento consistente en la lectura de algunos textos. Tras un recomendable tutorial, puedes empezar a dictar en cualquier sitio donde sitúes tu cursor, y para ser el primer contacto con esta versión, el funcionamiento me está pareciendo muy bueno. Siendo completamente sincero, no estoy utilizando todas las funciones del programa, mantengo una mano en la barra espaciadora (que curioso… acabo de ver que no puedo escribir “barra espaciadora”… el programa va y marca un espacio :-) y otra en el ratón, que utilizo para situar el cursor y para separar alguna palabra que se me queda unida, debido fundamentalmente a mi caótico estilo de escritura con continuos saltos hacia delante y hacia atrás. Mi voz no suena completamente natural, sino más bien un tanto ceremoniosa, como si estuviese hablando en la radio y para un público especialmente lento, pero imagino que eso mejorará con la práctica y se hará más natural (o eso espero, porque me siento un poco como un locutor en prácticas).
En realidad, los problemas más significativos no provienen del uso del programa, sino del hecho de utilizar la voz para dictar una entrada, una tarea que habitualmente se desarrolla mediante un esquema mental diferente y, en mi caso, no necesariamente secuencial. El problema, claramente, no es dictar, sino tener claro qué decir. Sin embargo, ya llevo una entrada escrita de cierto tamaño, prácticamente no he tocado el teclado, y la sensación es muy interesante. En la parte negativa, destacaría una cierta lentitud de ejecución del programa, que a veces, tras pronunciar una palabra o intentar ejecutar un comando determinado, permanece como “pensando” y resulta un poco desesperante. También es verdad que lo he instalado en un ordenador y ya no es “estado del arte”, aunque tampoco es precisamente chatarra: un Pentium III a tres gigahertzios con 512 Mb de RAM. En próximos días iré probando sucesivamente el programa para un número mayor de tareas, e iré contando un poco las experiencias resultantes que me parezcan de interés.






20.01.2007 a las 11:56 Permalink
[...] Enrique Dans prueba un programa de reconocimiento de voz: “Escribiendo con la voz” y le dicta la entrada al blog. [...]