Microsoft alza la voz…

Varios medios habían informado ya sobre las avanzadas conversaciones de Microsoft de cara a una eventual adquisición de Nuance Communications, una de las compañías más destacadas en el ámbito del reconocimiento de voz, con una larga y embarullada historia detrás plagada de fusiones y adquisiciones en ese ámbito. La operación, que finalmente se ha anunciado esta mañana, se estimaba que podría ascender a los 16,000 millones de dólares, lo que la convertiría en la segunda mayor adquisición de Microsoft tras la de LinkedIn, en junio de 2016, por $26,200 millones, pero ha terminado cerrándose en los $19,700 millones, un 23% por encima de la cotización de la compañía el pasado viernes.

Nuance Communications es uno de esos casos de compañías que, a través de innumerables fusiones y adquisiciones, termina por casi monopolizar el mercado en productos de reconocimiento de voz. Originalmente, Kurzweil Computer Products, una compañía fundada por Ray Kurzweil en 1974 para el desarrollo de productos de reconocimiento de caracteres, fue adquirida por Xerox, que la rebautizó como ScanSoft y la independizó posteriormente. ScanSoft fue adquirida por Visioneer en 1999, pero la compañía consolidada mantuvo el nombre de ScanSoft. En 2001, ScanSoft adquirió la compañía belga Lernout & Hauspie, que previamente había adquirido Dragon Systems, creadores del conocido Dragon NaturallySpeaking, para tratar de competir con Nuance Communications, que llevaba en bolsa desde 1995, en el mercado del reconocimiento de voz. Dragon era la compañía líder absoluta en precisión en tecnologías vinculadas con el reconocimiento de voz gracias al uso de modelos ocultos de Markov como método probabilístico para el reconocimiento de patrones temporales. Finalmente, en septiembre de 2005, ScanSoft decidió adquirir Nuance y tomar su nombre.

A partir de ahí, la compañía resultante se dedicó a crecer de manera extraordinariamente activa mediante adquisiciones: ha llevado a cabo la incorporación de hasta 52 empresas en el ámbito de las tecnologías de voz, en todo tipo de industrias y mercados, ha dado forma a un conglomerado que ha acaparado prácticamente los desarrollos comerciales relacionados con el tema, y ha licenciado su tecnología a todo tipo de compañías. De hecho, desarrollos tan conocidos como Siri, en Apple, estuvieron basados originalmente en tecnología de Nuance – aunque no está claro el nivel de dependencia de la compañía que pueden tener ahora.

La compra de Microsoft supone una apuesta fundamental por la voz como interfaz. La pandemia, con la profusión del uso de videoconferencias, ha supuesto una explosión en el uso de este tipo de tecnologías vinculadas a la transcripción de reuniones: Zoom, por ejemplo, incorporó transcripción automática en abril del año pasado mediante el uso de Otter.ai, de manera que al terminar cada una de mis clases, recibo automáticamente no solo el vídeo de las mismas, sino también su transcripción completa (que funciona infinitamente mejor cuando la clase es online que cuando se desarrolla en modo cara a cara en un aula).

La idea de Microsoft, que se encuentra inmersa en un proceso de fuerte crecimiento mediante adquisiciones, podría ser la de utilizar la tecnología de transcripción para integrarla en productos como Teams o a lo largo de toda su nube, Azure, para poder ofrecer a las compañías la posibilidad de convertir los entornos empresariales en ámbitos completamente indexables, en los que poder generar registros de las interacciones en reuniones para poder localizarlos posteriormente.

Ahora, Microsoft tratará de alzar la voz y utilizarla para diferenciar sus productos en el mercado. Que una pandemia en la que las comunicaciones electrónicas se convirtieron, durante mucho tiempo, en la principal forma de interacción, se haya convertido en el estímulo para un futuro con más protagonismo de la voz como interfaz es, como mínimo, curioso.

ACTUALIZACIÓN (14/04/2021): Marimar Jiménez me envió algunas preguntas sobre este tema y me citó en su artículo titulado «Microsoft-Nuance: la apuesta por la voz como interfaz de futuro» (pdf). A continuación, las preguntas que cruzamos sobre el tema:

P. ¿Qué mueve a Microsoft a pagar 19.700 millones por Nuance? ¿Sólo posicionarse en el sector sanitario o hay detrás el apostar por la voz como interfaz de cara a futuro? ¿Dónde piensas que podría Microsoft aplicar esta tecnología?

R. Según la teoría clásica, las cosas valen lo que alguien está dispuesto a pagar por ellas, y en el caso de Microsoft, la magnitud de la inversión, su segunda compra más importante después de adquirir un gigante como LinkedIn por 26,200 millones, indica que para la compañía, el control de las tecnologías relacionadas con el reconocimiento de voz es muy importante. Obviamente, por mucho que algunos analistas o la propia Microsoft digan que la finalidad de la compra es posicionarse en el sector salud, ninguna compañía en su sano juicio lleva a cabo una inversión de esa magnitud para seguir haciendo lo que ya hacía anteriormente. Para el posicionamiento en el sector salud, Microsoft solo tenía que seguir colaborando con Nuance como ya colaboraba. Lo lógico es pensar que Microsoft, con la adquisición de Nuance, pretende desarrollar a sus principales clientes, los entornos corporativos, incorporando la voz y su procesamiento a todas las herramientas su integración en Office, en Teams, etc., y a través de Azure. Sobre todo, es interesante ahora, dado que la pandemia nos ha llevado a hablar constantemente delante de un micrófono en videoconferencias, y la propuesta de valor de entornos en los que toda esa información pueda ser convenientemente registrada, indexada y localizada posteriormente es potencialmente muy interesante.

P. ¿Vale Nuance, en cualquier caso, esos 19.700 millones o está pagando en exceso? ¿Por qué?

R. Nuance es el resultado de más de dos décadas de consolidación de mercado, de innumerables adquisiciones y de un trabajo enorme en multitud de industrias para desarrollar soluciones verticales de todo tipo. La llegada al mercado corporativo de Nuance es fantástica, y Microsoft podría, por supuesto, capitalizarla muy bien. En ese sentido, la adquisición y su dimensionamiento económico, aunque enorme, podría estar bien motivada. Sin embargo, debemos tener en cuenta que Nuance es, en muchos sentidos, la aproximación «clásica» al reconocimiento de voz mediante metodologías probabilísticas para el reconocimiento de patrones temporales basadas en técnicas matemáticas complejas como los modelos ocultos de Markov, mientras que en ese ámbito, los mayores desarrollos los han llevado a cabo otras compañías utilizando una aproximación diferente, la del machine learning. En ese ámbito se encuentran desde la mismísima Google, con muchísimo trabajo desarrollado en torno a su asistente y a otros productos, u otras como Otter.ai, utilizada por ejemplo por Zoom para hacer las transcripciones de sus videoconferencias. Todo parece indicar que el modelo de machine learning, basado en la educación de algoritmos mediante millones de muestras de voz etiquetadas, podría dar entrada a muchos otros competidores, y dejar en el aire el liderazgo en ese terreno, a pesar de la cuantiosa adquisición llevada a cabo por Microsoft.

P. Las últimas operaciones muestran a una Microsoft muy agresiva en adquisiciones. ¿Crees que el hecho de que los reguladores antimonopolio no hayan puesto a la compañía bajo su lupa está permitiéndoles tomar posiciones en nuevos mercados, mientras Amazon, Facebook, Google o Apple deben cuidar mucho más sus pasos?

R. Satya Nadella ha mostrado desde sus inicios una voracidad a la hora de plantear adquisiciones muy importante, similar a la que exhibe, por ejemplo, Dara Khosrowshahi en Uber (o anteriormente en Expedia). Desde el punto de vista de oportunidad, esa táctica de crecimiento agresivo podría parecer muy interesante particularmente ahora que la mayoría de las big tech han moderado el uso de ese arma para evitar la furia de los reguladores, mientras Microsoft, al menos por el momento, no ha sido siquiera llamada aún a testificar ante ningún comité en congreso o senado. Pero las adquisiciones, como es bien sabido, tienen un coste en términos de recursos, tanto por el premium que obligan a pagar, como por los potenciales costes de la integración.

P. ¿Ha perdido Satya Nadella el rumbo? Lo digo porque ahora compra Nuance, que puede encajarle bien con Microsoft, pero también quiso comprar TikTok, Pinterest y Discord (se desconoce si siguen negociando esta última adquisición)… ¿entiendes esta agresividad de Microsoft en adquisiciones? ¿Y encajarían todas por igual?

R. Satya Nadella se mira en el espejo de Tim Cook y de Apple, y aunque afirme que la valoración de mercado no le obsesiona, estaría encantado, tras heredar una compañía a la que el nefasto Steve Ballmer llegó a poner en peligro, de poder plantearse situar a Microsoft como la empresa más valiosa del mundo. La diferencia ahora, 1.94 frente a 2.23 billones de dólares, es importante, pero no insalvable, y los entornos corporativos, sobre todo tras una pandemia, pueden posibilitar cifras de ventas cuantitativamente importantes. Por otro lado, aprovechar la coyuntura que los reguladores parecen estar negando cada vez más a otras big tech podría ser una forma inteligente de plantear la competencia.

This article was also published in English on Forbes, «There’s nothing nuanced about Microsoft’s plans for voice recognition technology«

#001
Pedro - 12 abril 2021 - 16:50
¿Por qué lo llaman «fuerte crecimiento» cuando quieren decir «era post-Steve Ballmer»?
El problema es que Bill Gates ahora está «salvando al mundo».
- Chipiron - 12 abril 2021 - 23:57
  Opino lo mismo. Y creo que Satya Nadela es el CEO que Microsoft necesitava. Pero aunque nunca he sido fan de Bill Gates, admiro su compromiso con devolver a la sociedad el 99% de su patrimonio. Otros deberían seguir los mismos pasos…
#003
Konamiman - 12 abril 2021 - 16:55
«La operación, que finalmente se ha anunciado esta amañana»… un error muy pillín que me ha hecho leer que se ha anunciado que la operación está amañada :-D
- Enrique Dans - 12 abril 2021 - 17:39
  Ayy, las e-rratas, siempre las últimas que abandonan el barco… gracias! Corregido! :-)
#005
Gorki - 12 abril 2021 - 17:25
Convencido que en el futuro próximo cambiaremos el teclado por el micrófono..Si hablamos con mas soltura que escribimos, lo lógico es dictar mas que escribir. Y ademas, los dispositivos como el teléfono son muy latosos de escribir
Desde hace tiempo Javier Cosnava, que es escritor de novelas «pulp», dicta y transcriba a texto para tardar menos en acabar sus novelas.
https://www.amazon.es/Tienda-Kindle-Javier-Cosnava/s?rh=n%3A818936031%2Cp_27%3AJavier+Cosnava
- Javier Cuchí - 12 abril 2021 - 20:00
  Te lo dice uno que ha escrito y escribe mucho: según de lo que se trate, acabas antes escribiendo que dictándole a un micrófono. Una carta, por ejemplo, vale, sí. Pero si es un escrito largo -a partir de un post de los de Enrique, por ejemplo- al dictado cometes, sin darte cuenta, cuatro mil faltas: redundancias, faltas de concordancia sintáctica, hipérboles, etc. Si a partir de un dictado tienes que corregir el escrito, te compadezco porque, como decimos los catalanes, surt més car el farciment que el gall. Es más rápido y cómodo, en estos casos, escribir, porque, según escribes, te vas dando cuenta bien de las cagadas, bien de otras mejores posibilidades en la expresión/redacción y, en fin, el tiempo y el esfuerzo que dedicas a la expresión de ese conjunto de ideas acaba siendo menor si se escribe que si se dicta.
  Tuve un amigo que, en sus funciones de rector de una asociación, cuando le venía alguien con una idea le decía: «escríbela». Y el 70 por 100 de las ideas ya no volvía porque al escribirlas, su autor se daba cuenta de que la tal idea no era tan buena como él creía. Pero el otro 30% venían, en cambio, muy elaboradas y muy trabajadas, lo que ahorraba una cantidad de tiempo enorme a la hora de ponerlas en común y debatirlas. El proceso de escribir ayuda a la reflexión y mucho.
  El reconocimiento de voz puede ser muy útil, por ejemplo, para los estenógrafos (si no acaba con ellos) o para los que, sin serlo, les toca redactar el acta de una reunión. En fin, o para periodistas, asistentes a conferencias, alumnos de clases presenciales y, seguramente, diez millones de cosas más. Pero para el proceso creativo, ya te digo yo que no.
  Claro que esto también te lo dice un tipo que, en las épocas de la máquina de escribir era incapaz de redactar a máquina directamente un escrito (de los citados como creativos): tenía que escribirlo primero a mano y después mecanografiarlo. Hasta que llegó el ordenador y se acabó el escrito en doble proceso.
  Todo es posible.
  - Gorki - 12 abril 2021 - 21:34
    Como todo, es a lo que te acostumbras. Yo, antes del PC, era capaz de dictar un «Manual de Usuario» o un «Cuaderno de Expliotación» de una aplicación, de la Introducción al Fin capítulo a capítulo en un dictáfono que la secretaria copiaba a máuina,
    Una vez escrito. Si te confundias , habia que repetir toda la pagina cosa que cabreaba bastante a la secretaria, por lo que los errores tenían que ser minimos,
    Pensaba el texto y escribia minimas notas en una hoja que me valian de recordatorio y de guión y luego soltaba de seguido todo el rollo seguido y casi no cometía errores,
    Apareció el Pc y me quitaron la secretaria y me acostumbré a ir escrbiendo párrafos y luego reordenarlos y comopetarlos en el PC. mientras que a la vez que mejoraba esa técnica, perdia la capacidad de elaborar todo el texto en el coco.
    Javier Cosnaba dicta sus novelas al PC, un programa, creo que es el Dragon. lo transforma en texto y directamente lo corrige para hacer los ebooks y no es literatura inmortal. pero si lo suficientemente buena para poderse ganar la vida escribiendo. lo que es francamente dificil en este pais..
  - Lua65 - 13 abril 2021 - 10:01
    Estoy contigo…
    Ya le respondi a Gorki en otro articulo donde menciono a su amigo y el Dragon.
    Despues de un tiempo considerable de entrenamiento del soft, tuve que aprender tambien yo, a dictar, sobretodo con la cadencia. Pero luego venia la tarea de revisar todo el escrito, y me llevaba tanto tiempo como el dictado.
    Yo soy relativamente rapido escribiendo, asi que uso Word (activando todas las opciones de correccion), y a medida que me canta las faltas, las voy corrigiendo, de manera que al terminar, mi unica revision, es releer por si me he olvidado algo.
    Es evidente que este tipo de soft puede ser muy util para algunas personas (di un curso para invidentes y quede prendado de como se desenvolvian con el pc, aprendi mas de ellos, que ellos de mi), pero tambien habra gente como yo, que seremos «mas puristas» y preferimos la antigua usanza, simplementepor eficacia.
    Advierto que mi experiencia con el Dragon se remonta a muchos años atras, no se como sera actualmente.
  - Emilio Iborra Botia - 13 abril 2021 - 15:48
    Es cierto que hay que aprender a dictar. También pasa con las personas que mecanografiaban. Pero en textos de tipo laboral resulta muy efrectivo. hace más de 40 años que se investiga en este terreno y ya va siendo hora de hacer uso de la voz
#010
Gorki - 12 abril 2021 - 17:31
Parece ser, a mi me cuesta creer que ese sea solo elobjetivo, que Microsoft lo ha hecho para facilitar su acceso al sector sanitario
https://www.elconfidencial.com/tecnologia/2021-04-12/microsoft-nuance-ia-voz-sanidad-sanitario_3030668/
- Enrique Dans - 12 abril 2021 - 17:42
  Es una de las industrias relevantes, sin duda. Microsoft y Nuance han trabajado antes juntos en eso, para digitalizar archivos, y lo lógico es pensar que van a «hacer más de lo mismo». Pero mi análisis es que para simplemente «hacer más de lo mismo» no te gastas casi veinte mil millones de dólares en una adquisición, y que esa magnitud solo la justifica algo mucho más ambicioso y que se extiende al principal colectivo con el que Microsoft trabaja, el del mundo corporativo…
  - Gorki - 12 abril 2021 - 19:13
    Sin datos en qué apoyarme, opino igual. No tardará mucho en poner la posibioñidad, como tiene Google en todos los sitios, de dictar en vez de escribir,
    Habra que volver a utilizar Word,. (ahora que me habia pasado a LibreOffice)
#013
Asier - 12 abril 2021 - 20:20
No conozco el estado del arte pero ¿para cuándo el reconocimiento y traducción simultánea de voz en tiempo real? Y con un poco más de IA que lo haga con el tono de voz del hablante original. Algo que termine con la barrera que supone no conocer otro idioma.
Supongo que aún queda mucho pero un producto así sería valiosísimo.
- Enrique Dans - 12 abril 2021 - 20:28
  Prueba simplemente a usar el traductor de Google que tienes en el móvil con el botoncito del micrófono. Reconoce lo que dices bastante bien, y lo traduce como ya sabemos que traduce Google Translate, que ha mejorado sensiblemente desde hace algún tiempo. Está pensado para eso, para que le des al micrófono, digas algo, y el teléfono se lo lea a la persona con la que intentas entender – o al revés, que la persona diga algo a tu teléfono, y tú puedas verlo escrito o escucharlo si quieres. Hay muchas otras opciones, por supuesto, pero si simplemente pruebas esta usando dos idiomas que conozcas, verás lo lejos que ha llegado el tema ya…
  - sin censura - 13 abril 2021 - 11:05
    Estoy con Asier
    Todavía son bastante mejorables.
    Me llevé una sorpresa con W10 con su reconocimiento y TTS han mejorado mucho. Diría que han igualado a Mac.
    Pero Cortana…
    Claro que pagando 500 pavos por el dragon como para ser malo…
    - sin censura - 13 abril 2021 - 11:09
      Por cierto para traducir creo que es mejor
      https://www.deepl.com/translator
      Pero google translate para «otros» idiomas (que no sean español, ingles, aleman,italiano portugues) es lo único a nuestra disposición aceptable(ruso, polaco, checo) y gratis
      Para chino, hebreo, árabe, japones,… solo lo he probado en alguna web y me ha hecho el apaño
- Gorki - 12 abril 2021 - 21:48
  Existen traductores simultáneos, aun no disponible, pero a punto de salir. pero desconozco que calidad de traduccion producen.
  https://youtu.be/8UK-qlgB36k
#018
Chipiron - 12 abril 2021 - 23:51
Aquí hay dos temas importantes, uno ya mencionado:
1) Cuánto dependen otras compañías de Nuance? Creía que con Deep Learning se habían barrido todos los récords y tecnologías precursoras. Es más, me suena que no hace mucho tiempo que Micro presentó un sistema con mayor exactitud que el humano medio. Y que Siri mejoró mucho su reconocimiento de voz al introducir Deep Learning… alguien tiene detalles?
2) Se puede acusar de monopolio a Microsoft con esta adquisición? Podría ser más estratégica que tecnológica si otros dependen tanto de Nuance…
#019
Pit - 13 abril 2021 - 12:19
Nuance fue un verdadero monstruo devora-competencia. El final de siglo XX y primeros años del XXI me pilló ejerciendo como consultor tecnológico de Contact Center y viví de primera mano como Scansoft (que como dice Enrique fue quien adquirió a Nuance, solo que el nombre de esta era mucho mejor) compró todo lo que se movía en el mercado de ASR para grandes Contact centers, que entonces era el verdadero motor de mercado, por encima del TTS y de las aplicaciones verticales como las de Dragon, orientados a usuarios finales profesionales.
El caso de Nuance es un ejemplo claro sobre las dificultades que las autoridades regulatorias y de competencia tienen para definir qué es un mercado a los efectos de regulación antimonopolio. Estaba claro que estaban quedándose con casi el 100% del mercado de tecnologías de reconocimiento de voz, pero como este tiene un volumen relativamente perqueño, ningún regulador se molestó en aplicar una visión tan granular como para analizarlo.
#020
Naudot - 13 abril 2021 - 16:58
¿Será Nuance útil para subtitular películas (con una buena temporización de frases) que permita después una traducción automática mejor que la que ofrece ahora youtube?
¿Servirá Nuance para proporcionar la transcripción de podcasts y programas de radio? (En mi caso me suele gustar más leer que escuchar el audio). Gracias
- sin censura - 13 abril 2021 - 19:45
  Y no solo lo que señalas que coincido totalmente… sino que además un fichero de una película de 2 horas poder pasarlo a texto en unos sg. es algo que también interesa, la máquina no tiene que visionar, mejor dicho escuchar a nuestra velocidad, la normal…
#022
Xaquín - 13 abril 2021 - 17:51
El argumento dado por un comentarista sobre la superioridad expresiva de lo escrito, frente a lo oral, ya me parece muy oportuno.
Añadiría otro, algo más histórico y, en cierto modo tecnológico.
Las historias que resumió Homero en sus dos grandes novelas, eran de tradición extrictamente oral. Hasta que se descubrió la escritura (tecnología punta del momento) y se pudieron fijar mucho mejor las palabras.
Allá cada uno con sus preferencias. Pero, si los egipcios nos dejaran una cinta de audio, en vez de una simple piedra, seguro que aún estaríamos discutiendo el significado de lo que estaba escrito en la piedra de Rosetta. No se como estarían de pronunciación los egipcios , pero dudo mucho que no tuvieran tantos giros expresivos, como los que actualmente se pueden dar en España.
La fijación, lo más intensa posible actualmente, de los elementos que forman un determinado código lingüístico, se da mucho mejor en la expresión escrita que en la expresión oral. Digan lo que digan Alexa, Siri y demás representantes de la escucha «microfónica».
Y por algo la evolución de una lengua se da antes oralmente que por escrito. Lo que nos lleva a considerar, que el modo tan «guay(u)» de hablar/escribir, que preconizan las nuevas generaciones, tiene mucho (demasiado) de empezar la casa por el tejado. ¡Y nada nada, de adaptarse correctamente al avance tecnológico!
#023
sin censura - 13 abril 2021 - 19:41
El acceso a un mensaje de audio era hasta ahora secuencial, salvo qeu estuviera indexado y tenías que escucha lo en su mayoría para acceder a una parte relevante. El acceso a la escritura se puede hacer de manera más sencilla con motores de búsqueda en automático, o incluso la famosa lectura diagonal que hacemos las personas.
Por tanto tener una herramienta confiable que pase al vuelo un mensaje de audio a formato escrito a una gran velocidad es primordial para indexarlo y/o transcribirlo. Hoy en día tener herramientas de calidad que trabajen correctamente en «leer» audio son alog básico. Y Nuance parece un buen candidato para esa meta. Y sino que se lo digan al CNI con los ficheros de Villarejo.