Apple y la síntesis de voz: de la sorpresa a la normalización hay cada vez menos tiempo

Hace ya unos cuantos años que, en la primera sesión de mis cursos y en muchas de mis conferencias, empecé a introducir ejemplos de síntesis de voz de muchos tipos: desde voces sintetizadas que sonaban completamente humanas, hasta deepfakes míos o de personajes famosos, pasando por muchos otros ejemplos. Me parecía una forma interesante de mostrar hasta qué punto la tecnología adquiría nuevas funcionalidades, y cómo la regulación de su uso podía entrañar numerosas dificultades.

Hasta ahora, crear una voz de unas características determinadas o que sonase exactamente igual que la tuya o la de otra persona era una tarea que, aunque resultaba relativamente sencilla y se limitaba a leer unas cuantas frases ante un micrófono (aunque había ya métodos para poder clonar una voz con pocos segundos de casi cualquier locución), los usuarios normales no solían llevar a cabo, y de ahí que resultase relativamente sorprendente.

Ahora, Apple acaba de lanzar una actualización de sus funcionalidades de accesibilidad, y una de ellas es precisamente la de crear una copia de nuestra propia voz, pensada en principio para afectados por la esclerosis lateral amiotrófica y enfermedades similares que conllevan la pérdida del habla, pero que sin duda será utilizada por muchos que no las padezcan: un proceso sencillo y relativamente rápido (15 minutos) que permite, tras leer unas cuantas frases para adiestrar al algoritmo, contar con un asistente que reproduce los textos que le tecleemos con nuestra propia voz, o que reproduzca frases que empleamos habitualmente.

Crear un voice bank con tu voz es una posibilidad que, hasta ahora, el común de los usuarios no podía hacer. Era algo relativamente especializado, que de hecho muchos pacientes de ELA en fases incipientes iban posponiendo hasta que, un día, se encontraban con que su dolencia había alcanzado un nivel en el que era ya demasiado tarde para llevarlo a cabo, precisamente cuando más empezaban a echar de menos su capacidad de hablar. Ahora, ya tenemos en un simple iPhone una prestación, cuyo uso está diseñado para esas personas que, debido a diversas dolencias, pierden físicamente la capacidad de hablar, pero que estoy completamente seguro de que surgirán muchos otros usos para ello, tanto buenos como no tan buenos.

La velocidad de la innovación es cada vez más apabullante. El tiempo que transcurre entre la aparición de una funcionalidad determinada que puedes mostrar a una audiencia y lograr un cierto efecto sorpresa (muy útil en términos académicos, porque generan en las personas anchors de memoria extremadamente útiles) y la normalización total de esa funcionalidad, hasta el punto de que cualquiera puede ponerla en práctica o incluso haberla utilizado antes de que se lo cuentes, es cada vez más corto. Cuando empecé a dar clase de tecnología e innovación, el decano de entonces – hace ya más de tres décadas – pretendía que las clases de los profesores de mi área, dado que tenían lugar en aulas con la mitad de capacidad y, por tanto, había que duplicarlas, se pagasen a la mitad (afortunadamente, su propuesta no se llegó a llevar a cabo). Ahora, dada la necesidad de actualización de los contenidos de los cursos que imparte mi área con respecto a otras más «tradicionales», habría que pagarlas al doble :-)

This article is also available in English on my Medium page, «Apple’s Personal Voice speaks volumes about the pace of technological change: nobody’s surprised by anything anymore»

#001
Benji - 19 mayo 2023 - 13:30
El avance de todo esto es vertiginoso, emocionante y abre muchísimas posibilidades que aun no alcanzamos a imaginar. Tanto las buenas como las malas.
Si estuviera ya todo «generalizado», Cristina Cifuentes podría decir que es un «deepfake» lo del robo de las cremas y quedarse mas ancha que larga. O se podrían poner palabras machistas en boca de cualquier político de izquierdas para forzar su dimisión o una soflama pro-comunista a alguien de derechas.
Por el lado bueno veo a los enfermos de ELA, a los abuelos que no saben manejar el móvil o los bancos online, abusando del asistente. Mas allá estará la Generación Alpha que lo usará para pedir deberes a OpenAI o a todos en el trabajo para sentirnos como Iron Man con esto
- Chipiron - 19 mayo 2023 - 13:36
  Totalmente de acuerdo, Benji. De hecho en algunos comentarios te me has adelantado :-))
- Dedo-en-la-llaga - 23 mayo 2023 - 18:02
  What? Esa señora se quedó tan ancha como larga, sin necesidad alguna de esgrimir ninguna «deepfake», que para eso es quien es, y del partido que es… Lo llevan haciendo desde que nacieron.
#004
Chipiron - 19 mayo 2023 - 13:35
Creo que Apple incorpore de serie ésta funcionalidad es una gran noticia porque con el boca-oreja la gente se irá «educando» en el sentido de que se puede hacer decir a quien sea lo que se quiera gracias a un «deepfake».
Imaginaros si la gente no está preparada y al político de turno se le hace decir barbaridades con estos deepfakes…. Si la población no es consciente de que la tecnología lo permite se pueden montar bastantes escándalos. Especialmente en periodo de elecciones…
- Matt - 20 mayo 2023 - 01:28
  Se montaran los escandalos igualmente. Y muchos otros que si las hagan de verdad diran que todo es un fake.
  Si el mundo actual ya es un lodazal, el que viene va a ser mucho peor.
  Y aun hay gente que cree que las cosas buenas de ésto superaran a las malas. Seran los que durante la pandemia decían que saldríamos mejores …
  - Lua - 20 mayo 2023 - 20:26
    No lo dudes….
    Dale un AK-47 a un mono y espera resultados…
#007
Gorki - 19 mayo 2023 - 14:38
Si fuera enfermo de ELA, igual me daría si la voz usada por un aparato foniátrico era la mía, la de mi mujer, o la de Constantino Romero, pero demos por bueno que muchoe enfermos de ela prefieren que suene su propia voz.
,
Esto demuestra que los avances tecnológicos no son ni buenos ni malos, son sus usos los que pueden ser buenos o malos, porque parece ser que mucho estafadores estan clonando voces para estafar a los familiares
Clonar la voz de alguien para pedirle a sus abuelos dinero por teléfono, el nuevo timo que la inteligencia artificial hace posible
- C3po - 20 mayo 2023 - 10:27
  Creo haberte leido en tu blog jugar con arduino
  Esto te gustará
  https://geekytheory.com/tutorial-raspberry-pi-texto-a-voz-con-twitter-y-google-translate/
  - Gorki - 20 mayo 2023 - 21:02
    Te lo agradezco en el alma, pero mi mala vista y mal pulso me ha sacado de Arduino, hay que tener unas facultades físicas que yo ya no doy. Ahora estoy a ratos con Processing y el arte digital lo que pasa es que yo de artista, bastan te poco.
#010
Luis - 20 mayo 2023 - 08:16
De la fascinación por el avance tecnológico al temor por ello solo hay un paso, y cada vez más pequeño.
Cada vez nos va a resultar más difícil no vivir en un mundo «fake».
#011
Chipiron - 20 mayo 2023 - 11:12
Se me ocurre una idea… igual es demasiado simple..
Añadir códigos Hash o incluso blockchain a las grabaciones de audio/Video hechas realmente, para que no se puedan modificar.
Ejemplo: todos los iPhones a partir del 15, podrían llevar un chip añadido físicamente a la cámara que diese un código hash asociado al número de serie del teléfono. Si editas dicho Video, el código ya no coincidirá.
Y para colmo, subes esa operación a una cadena de blockchain.
Podría servir para las cámaras de reporteros que quieran tener un método de autenticación de sus vídeos. Sus cámaras podrían tener una especie de certificado digital emitido, por ejemplo, por la FNMT.
Igual me estoy yendo de la pelota, pero será necesaria alguna marca de agua para determinar que un archivo multimedia es real y no ha sido manipulado…
En fin, ya os podéis reír de mi idea…
- Calamar - 20 mayo 2023 - 12:59
  Totalmente de acuerdo, CHIPIRON. De hecho en algunos comentarios te me has adelantado :-))
- C3po - 20 mayo 2023 - 15:29
  Reirnos? Es muy buena
  Paténtala o los lobbys te la robarán.
  - Santa Paciencia (RealInstance) - 20 mayo 2023 - 20:23
    Por diox…. XDDD
    dame…. dame….
#015
Xaquín - 20 mayo 2023 - 12:51
Desde los faraones el ser humano, cada vez más mediocre versión de HS, ha sido incapaz de enfrentarse a la muerte, con naturalidad, claro. Con la parafernalia, que el llamado Occidente desplegó, para escurrir el bulto en su momento definitivo, ahí somos unos artistas del disimulo.
Y lo mismo, pero más acelerado, está pasando con los algoritmos «inteligentes», se les llame IA, IH o simplemente «métete el dedo en la boca, que así volverás a ser un bebé»…
Hay una peli muy buena, de un tal Bergman, donde se muestra el diálogo final de la muerte con un caballero «cristiano», que se la «intenta jugar». Porque nada hay de «agujero negro», si sabes que su llegada es algo totalmente natural, e incluso esperable (sobre todo si viviste natural y libre!).
Y es muy curioso, porque ya los bufones se podían permitir el lujo de imitar a su rey (voz impostada, caretas más o menos conseguidas…). Con su permiso, claro, ya que a fin de cuentas toda imitación es un simple «juego de poder» (que te dejen «hacerla»). Y por lo de ahora, salvo en el cine, la muerte tiene el último movimiento. Y los poderosos terrenales, todos los intermedios (que les «dejemos» hacer).
Tan mediocres somos, que no nos vemos capaces de interactuar con un puto algoritmo?
#016
Michel Henric-Coll - 21 mayo 2023 - 13:21
A ver un poco, leo en este artículo:
que esta tecnología permite ayudar a «afectados por la esclerosis lateral amiotrófica y enfermedades similares que conllevan la pérdida del habla» después de
«un proceso sencillo y relativamente rápido (15 minutos) que permite, tras leer unas cuantas frases para adiestrar al algoritmo»
Hay algo aquí que se me está escapando.
- Enrique Dans - 21 mayo 2023 - 13:49
  Antes de que pierdan el habla, se entiende. La enfermedad tiene una progresión que permite crear el banco de voz antes de que la capacidad de hablar desaparezca completamente.
  - Michel Henric-Coll - 22 mayo 2023 - 10:01
    Gracias por la aclaración.