Escribiendo con la voz

Hace unos quince días recibí un mensaje de ZN, una empresa belga de eMarketing que trabaja para Nuance, creadora de Dragon NaturallySpeaking, el programa líder en reconocimiento de voz. La empresa ha puesto en marcha una campaña titulada «Dragon NaturallySpeaking 9 da la voz a los usuarios de blogs» mediante la cual envía el programa a aquellos bloggers que estén dispuestos a probarlo. Tras un breve intercambio de mensajes en el que clarificamos las condiciones de la prueba, (la empresa pretendía acordar un cierto número de entradas escritas a la semana escritas mediante el programa y con mención del mismo, condición que yo no acepté), recibí el programa hace pocos días, y lo instalé finalmente ayer. La versión recibida es la Standard (€85), hay además una versión Preferred de €199 y otras versiones en la web en inglés adaptadas a determinados usos, como Medical o Legal. Para Mac, la versión que veo en la web es IBM ViaVoice, una tecnología que creo recordar que IBM vendió a Nuance hace algunos años, convirtiéndola así de facto en un competidor prácticamente monopolístico.

No es mi primera experiencia con el reconocimiento de voz ni con Dragon NaturallySpeaking. Hace pocos años tuve bastante contacto con una versión anterior del programa, que utilicé profusamente para la transcripción de entrevistas grabadas para el desarrollo de casos académicos, y llegué a escribir un testimonio para la empresa que lo distribuía, Speech Recognition Ware. Aquella versión se estuvo utilizando, después de mis pruebas iniciales, durante bastante tiempo en el área de Sistemas y Tecnologías de Información del Instituto de Empresa, y produjo una notable mejora de la productividad en las habitualmente muy tediosas tareas de transcripción literal de entrevistas grabadas. El procedimiento consistía en utilizar la entrada de audio para reproducir la grabación de la entrevista, que el operador repetía con su propia voz a medida que la iba escuchando, una tarea que habitualmente había que realizar con el teclado y que dependía por tanto de las habilidades mecanográficas del operador. Al principio, la precisión del programa no era perfecta, pero al cabo de cierto tiempo de uso mejoraba notablemente en función de la práctica y el entrenamiento del operador. El proceso de entrenamiento provocaba una mejora notable en el rendimiento del programa frente al primer contacto con el mismo, y cada operador guardaba su perfil de voz en un archivo personal. Recuerdo especialmente el caso de una persona que entró en el departamento, muy competente y con un marcado acento andaluz: durante la entrevista, nos hizo dudar de si el programa sería capaz de reconocer adecuadamente su vocalización de palabras – no tengo nada en contra del acento andaluz, es más, me parece precioso, pero para mi oído no era seguramente lo más claro y fácil de seguir del mundo. El programa, tras un breve entrenamiento, pudo reconocerla perfectamente y con un número de errores incluso inferior al de otros operadores.

En la versión que he recibido y acabo de instalar, y que estoy además utilizando para escribir esta entrada, la primera diferencia que percibo es la impresionante precisión del reconocimiento de palabras. La instalación es relativamente rápida, el programa ocupa en torno a los 300 MB y, tras dicha instalación, el usuario debe realizar un breve entrenamiento consistente en la lectura de algunos textos. Tras un recomendable tutorial, puedes empezar a dictar en cualquier sitio donde sitúes tu cursor, y para ser el primer contacto con esta versión, el funcionamiento me está pareciendo muy bueno. Siendo completamente sincero, no estoy utilizando todas las funciones del programa, mantengo una mano en la barra espaciadora (que curioso… acabo de ver que no puedo escribir «barra espaciadora»… el programa va y marca un espacio :-) y otra en el ratón, que utilizo para situar el cursor y para separar alguna palabra que se me queda unida, debido fundamentalmente a mi caótico estilo de escritura con continuos saltos hacia delante y hacia atrás. Mi voz no suena completamente natural, sino más bien un tanto ceremoniosa, como si estuviese hablando en la radio y para un público especialmente lento, pero imagino que eso mejorará con la práctica y se hará más natural (o eso espero, porque me siento un poco como un locutor en prácticas).

En realidad, los problemas más significativos no provienen del uso del programa, sino del hecho de utilizar la voz para dictar una entrada, una tarea que habitualmente se desarrolla mediante un esquema mental diferente y, en mi caso, no necesariamente secuencial. El problema, claramente, no es dictar, sino tener claro qué decir. Sin embargo, ya llevo una entrada escrita de cierto tamaño, prácticamente no he tocado el teclado, y la sensación es muy interesante. En la parte negativa, destacaría una cierta lentitud de ejecución del programa, que a veces, tras pronunciar una palabra o intentar ejecutar un comando determinado, permanece como «pensando» y resulta un poco desesperante. También es verdad que lo he instalado en un ordenador y ya no es «estado del arte», aunque tampoco es precisamente chatarra: un Pentium III a tres gigahertzios con 512 Mb de RAM. En próximos días iré probando sucesivamente el programa para un número mayor de tareas, e iré contando un poco las experiencias resultantes que me parezcan de interés.

#001
Joserra - 19 enero 2007 - 11:25
Uff, Enrique, como te nos pongas a dictar los posts, me da que ya te van a salir más que kilométricos!! :P
#002
Enrique Dans - 19 enero 2007 - 11:27
Sí, tienes razón, la verdad es que tengo un rollo impresionante… tendré que controlarme… :-)
#003
dabidovich - 19 enero 2007 - 12:00
La integración blogging-reconocimiento de voz puede ser interesante para mob-blogging:
Yo llamo a mi blog, dejo un mensaje de voz y aparece publicado como audio y como texto.
O bien: aparece publicado como audio, y el texto reconocido queda para una posterior revisión de la entrada por parte del blogger.
P.D ¿Un pentium III a 3GHz? ¿Qué tipo de refrigerante utilizas para forzar una máquina así? ;-)
#004
Ruben - 19 enero 2007 - 12:30
He oído hablar maravillas del programa, pero no sabía si funcionaría para bloguear, más que nada por la cantidad de acronimos que utilizamos.
Por ejemplo, ¿para introducir MB, dices (eme-be)?
#005
Ruben - 19 enero 2007 - 12:32
Por cierto, dabidovich , se que el Dragon funciona perfectamente con algunas grabadoras digitales. Ideal para conferencias y congresos. Para tomar notas y no tener que andar con el portatil de aqui para alla.
#006
Consultor Anónimo - 19 enero 2007 - 12:44
¡Qué guapo! La tecnología de reconocimiento de voz es algo que se intentó que estuviera en boga hace ya un montón de años (claramente demasiado pronto para el nivel de desarrollo de la tecnología) y pensaba que era algo en lo que no se había vuelto a avanzar… pero si juras que este post lo has «escrito» con la voz… la cosa es más que interesante!!
Ahora a ver cuándo hacen uno que reconozca los pensamientos, y ya blogueamos con la mente…
#007
ana mar*a - 19 enero 2007 - 12:53
Aich, ese programa es el favorito de David Pogue (del New York Times), así que ya me creo q se usarlo aunque nunca lo haya probado.
Es interesante lo que mencionas sobre cómo cambia el proceso de pensamiento al dictar vs. escribir. Pienso que puede ser positivo porque la escritura se beneficia se ser coloquial, sobre todo en un blog.
Me pregunto qué tal será la versión Mac…
una pregunta ¿cómo pones los paréntesis?
#008
Gonzalo Iruzubieta - 19 enero 2007 - 13:41
Por problemas de salud, estoy viendo durante estas semanas una estupenda aplicación del reconocimienot de voz en la Fundación Jiménez Díaz de Madrid. En dos ocasiones, en pruebas ecográficas, los médicos, una vez realiazada la ecografía y mientras el paciente -yo- se vestía, dictaban a su base de datos interna los resultados para introducirlos en el historial. En ambos casos, al médico le dio tiempo a actualizar el historial y, posteriormente, a despedir al paciente, con una clara optimización del tiempo y de los recursos.
#009
Luis Caldevilla - 19 enero 2007 - 13:50
Teclados virtuales predictivos… ¿para que? Si podemos usar la voz.
Lo interesante de todo esto es disponer de varias opciones. Teclear, dictar, chatear, videollamar… No creo que haya que decidir cual es mejor. Cada opción tiene sus ventajas y lo mejor es disponer de todas.
A las 3 de la madrugada no vas a ponerte a dictar un post de viva voz.. A las 8 de la mañana y sin peinar no te vas a poner a hacer un videopost.
En la variedad esta el gusto. ¿O no?
#010
Enrique Dans - 19 enero 2007 - 16:46
Consultor, te cuento: el texto de la entrada lo escribí completamente al dictado, aunque mantenía la mano en el ratón para los desplazamientos, porque como comentaba en el post, es impresionante lo poco lineal que soy y las vueltas que doy, escribo de cualquier manera menos seguido y de tirón. Seguro que cualquiera mínimamente más organizado que yo (es decir, el 99% de la población :-) le saca más partido en ese sentido. Te puedes desplazar también con la voz, pero me parece algo más incómodo por el momento. Tras escribir, agarré teclado y ratón para hacer los hipervínculos y alguna pequeña corrección (que podría haber hecho con el programa, pero aún me falta práctica). Pero en general, sí, podríamos decir que la entrada está escrita al dictado casi completamente.
#011
Alberto - 19 enero 2007 - 16:56
Enrique, qué coincidencia, precisamente ayer estaba hablando con nuetra directora de IT para probar algún software de estas características que nos ayudara a mejorar la eficiencia en ciertos procesos y llegas tú y me das la clave de por dónde empezar.
Muchas gracias.
#012
mong - 19 enero 2007 - 17:20
Es una tonteria, e igual me equivoco, pero traducir «state of the art» por estado del arte seria como traducir firewall como muro de fuego. Creo que esa expresion es equivalente a «alucinante» o un termino similar.
Hasta luego.
#013
Gurus - 19 enero 2007 - 19:03
No sabría decirte si para los lectores es mejor o peor, pero francamente se nota que el post es «hablado»…
#014
Gorki - 19 enero 2007 - 21:00
Le veo ventajas, por ejemplo Google lo puede catalogar con facilidad, pero sería más útil guardar tu dictado en un fichero MP3 y orilo nosotros directamente?
En efecto el medio a tu disposición condiciona la forma de redactar y de pensar. Cuando no había tratamiento de textos, pensaba lo que iba a decir y despues escribía de un tirón, una carta o un trabajo de 60 páginas.
Al utilizar tratamiento de textos, a medida que tengo una idea, escribo un párrafo y al final, reordeno los párrafos y doy la forma final al escrito.
Hoy no sabria escribir en máquina de escribir clásica, pues he perdido la habilidad de ordenar las ideas dentro de mi cerebro para soltarlas luego todas, una detras de otra, en un orden lógico.
No estando acostumbrado, tampoco se dictar, cosa que mi padre, que era abogado hacía sin dificultad, dictaba la correpondencia a su secretaria, que lo tomaba en taquigrafía sin el menor problema.
Con estos programas tendrás que acostumbrarte a dictar y eso no se aprende en un rato.
#015
Joan Planas - 20 enero 2007 - 06:40
Muy interesante, la última vez que probé un sistema similar estuve a punto de cortar la relación con mi ordenador ;-)
he visitado la web y he encontrado un vídeo demostrativo, y si funciona tal y como se puede ver, es alucinante! además que comentan lo del acento andaluz ;-)
dejo el link: spain.nuance.com/talk/
#016
pablo - 20 enero 2007 - 07:19
Parece que la estrategia a la gente de DNS 9 no le ha surtido efecto aun. Tu eres el primero y unico que aparece en Technorati (de momento).
#017
franja.tk - 20 enero 2007 - 13:17
Ei! Muy interesante. EStoy buscando algun programa que haga esto mismo, transcribir lo oral, pero lo estoy buscando para transcribir entrevistas. Es decir, para personas que no van a enseñar al ordenador «com hablan». Ya he oído que no será posible por el momento. Pero el programa tiene algún problema con otras lenguas diferentes del spanish, como por ejemplo el catalan? ;-)
#018
Enrique Dans - 20 enero 2007 - 13:27
No sé si tiene versión en catalán, aunque dada la buena actitud que la Generalitat ha mostrado históricamente en estos temas que relacionan el idioma y la tecnología, seguro que no sería complejo conseguirla. Lo que sí tienes que tener en cuenta es que dudo que el programa te sirva para transcribir voces de otras personas con una idelidad razonable. El programa basa su nivel de acierto en un proceso de entrenamiento que, aunque notablemente simplificado en esta versión con respecto a la que yo conocí en su momento, imagino que será bastante necesario. Y la alternativa de poner a tus entrevistados a entrenar al dragón la veo complicada :-) Por eso en su momento nosotros, en el área de SI/TI del Instituto de Empresa, optamos porque un operador entrenase al bicho, y repitiese con su voz lo que iba oyendo por los auriculares. Aún así y todo, la ganancia de productividad es muy importante.
#019
Rijosa - 20 enero 2007 - 14:05
Ya puestos a darnos lecciones de ética:
la empresa pretendía acordar un cierto número de entradas escritas a la semana escritas mediante el programa y con mención del mismo, condición que yo no acepté
Podrías contarnos exactamente a qué tipo de acuerdo llegaste con ellos, puesto que este es un blog sobre Tecnologías de la Información, me gustaría saber cuánto dinero puede ganar aceptando ese tipo de ofertas un blogger. Gracias.
#020
Enrique Dans - 20 enero 2007 - 14:44
Por supuesto, Rijosa, es enormemente sencillo. Te copio y te pego las partes relevantes de los e-mails correspondientes:
En su e-mail de respuesta a mi disponibilidad positiva a probar el programa,
«Me alegra que acepte! Lo único que necesito ahora para que quede todo bien claro, es que me confirme por favor que está dispuesto a utilizar el software al menos una vez por semana para escribir sus entradas en el blog durante aproximadamente dos meses.»
En mi respuesta,
«No, lo siento, eso no lo puedo confirmar. Estoy dispuesto a evaluar el software como hice con la versión anterior, y seguramente hablaré de él, porque me parece interesante y mi uso de la versión anterior fue muy satisfactorio. Lo que no acepto es un compromiso sobre cuántas veces tengo que utilizarlo o hablar de él. Ni mi blog acepta publicidad, ni esto es una compra de espacio publicitario. Mi compromiso se limita a aceptar el producto y probarlo, a partir de lo cual hablaré o no de él con toda libertad, y únicamente en función de mi criterio con respecto al mismo.»
Y en la suya posterior,
«Entendemos su posición y Nuance estaría realmente encantado de que hiciera dicha evaluación en toda libertad y sin ningún tipo de compromiso, de la misma forma que lo hizo con la anterior versión. En cuanto al logo es algo totalmente opcional, sin ningún tipo de compromiso. Por favor, hágame saber si está de acuerdo y le hago el envío.»
Como ves, simplemente un pequeño malentendido solucionado de manera casi inmediata. Eso fue todo. Vayan por delante mis disculpas a la persona de ZN con quien mantuve este intercambio de mensajes privados por publicarlo, pero me pareció que era relevante y positivo para ambas partes.
Ricardo, no tengo dudas acerca de que, como dices, se pueda ganar dinero llegando a acuerdos del tipo que insinúas, pero siempre he afirmado que no es mi caso ni lo que pretendo conseguir con mi blog. Si en algún momento decido que lo sea, que no digo que sea mejor o peor, sino simplemente diferente, lo primero que haré será informar de ello siguiendo mi política de full disclosure. Y en cualquier caso, agradezco tu curiosidad y la oportunidad que me das para clarificar el tema.
#021
Peccata Minuta - 21 enero 2007 - 12:49
Yo he probado uno similiar, el Via Voice de IBM y lo mismo. El PC tiene que aprender cómo hablas y luego no puedes hablar libremente, sino que tienes que dictarlo como para niños subnormales, palabrita a palabrita. Desesperante.
He llegado a la conclusión de que con lo que más tiempo perdemos es escribiendo emails (Pepita Telegrafista). La solución que uso es grabar con un programa un mensaje en MP3 y enviarselo al receptor, que escuche lo que le quiero decir, sin tener que escribir epístolas.
Se llama Voice Mail Compressor.
#022
Un lector como otro cualquiera - 23 enero 2007 - 10:21
Me sorprende que algunos bloggers aceptéis regalos y luego escribáis entradas sobre ellos. A pesar de que advirtáis de que es un regalo y de que petrendéis ser totalmente objetivos.
Para empezar, aunque no recibáis compensación económica y hagáis el comentario por interés personal, la empresa que hay detrás sí que está realizando una campaña de publicidad al ponerse en contacto con vosotros. En el momento es que escribís la entrada pasáis a formar parte de ella. Tanto con una buena critica como con una mala.
Por otro lado, cuando una persona recibe un regalo de otra, su opinión sobre ésta deja de ser objetivo en un sentido u otro. Esto es simplemente así, es la naturaleza misma de los regalos.
Me encanta este blog y se que no pago nada por leerlo a pesar del esfuerzo y el tiempo que estoy seguro que te supone escribirlo. Es por eso que entendería que hubiera publicidad. Autentica publicidad.
La publicidad no es mala. Pero este es un blog de opinión, o eso creo. Lo que me interesa de él no son sólo las noticias sino la opinión que Enrique Dans tiene de ellas. Todo eso de los regalos sólo genera suspicacia. Lo que está en juego es tu credibilidad.
#023
MERCHE - 2 diciembre 2007 - 20:06
Te agrdeceria que me dijeras si este programa me serviria para escanear unas cosas y que me las pasara a voz, queria pasarlo a mi MP3 y mientras trabajo ir escuchandolo, soy una persona bastante ocupada y queria sacarme un curso y no tengo tiempo para hacerlo yo, en caso que este programa no me sirvera te agradeceria me comentaras si tienes conocimiento de que exista algun programa que haga lo que necesito, estoy contra reloj. Mis mas sinceros agradecimientos de antemano. Saludos
#024
Alberto FD - 14 octubre 2008 - 07:10
Enrique: Estoy buscando una solución de transcripción de la voz a Word con el objetivo de traducir un volumen importante de documentos, por lo que no me afecta que se deba hablar lento y claro. He visto el software en almacenes de USA y en el empaque del inicio de tu blog. Me han dicho que no hay versión para que transcriba en español. Debo buscar una específica para español, ó la que se vende en el empaque que muestras en Inglés sirve para español? Agradeceré tu respuesta.
Saludos, Alberto FD
#025
Enrique Dans - 14 octubre 2008 - 07:19
#24: Alberto, a mí me funcionó perfectamente en español, con sus fallitos como siempre, pero co una curva de aprendizaje (mía y del programa) brutal. La experiencia de usarlo para la transcripción de un montón de grabaciones (entrevistas de casos muchas y muy largas) la tuvimos en el Área de SI/TI del Instituto de Empresa, montamos un departamento para ello, y funcionó perfectamente, aunque no de manera directa: una persona tenía que ponerse unos auriculares, escuchar la grabación, y repetirla con su voz, con la que previamente había entrenado al Dragon. Con práctica se hacía muy rápido, y conseguimos una mejora en productividad muy elevada, se calculó que los tiempos de transcripción se redujeron a un tercio del original (y eso trabajando con la versión anterior del programa, que tenía un índice de errores en el reconocimiento bastante peor). Una experiencia muy recomendable.
#026
Anónimo - 7 marzo 2009 - 08:25
Resto es mi prueba con una lo expliqué en un y podéis comprobar que apenas tiene sentido lo que estoy tan así pues en esto nosotros un mi experiencia con los programas del todo nuevos. Aparte de todo resultó a bastante de sorprendente el hecho de e incluso el el público usuario que se mostró disconforme con los programas de Bowles en el texto es un dictado de Bowles he instalado ya varios meses del programa de trabajo un natural y es piquín¿alguien le encuentras sentido a esto?-Porque yo no encuentro ninguna muchas gracias.
ESTO ES UNA PRUEBA DEL NATURALLY SPEAKIN REAL. NO TE LO COMPRES NI DE COÑA YO ES EL 2º QUE TENGO Y ES TIRAR 300 € MINIMO A LA BASURA + EL CABREO ETC,
#027
Adriana - 26 marzo 2010 - 04:50
Saben si se puede instalar en una mac? o cual sería su similar para este otro sistema. Agradeceré sus comentarios.