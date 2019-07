Supongo que esta entrada será polémica, que me acusarán de estar pagado por las empresas tecnológicas y no sé cuántas tonterías más (el día que encuentre dónde diablos me ingresan todo eso que supuestamente me pagan, seré millonario), pero es que hay cosas con las que no puedo. Llevo varios días escuchando en las noticias avisos de todo tipo sobre cómo asistentes domésticos como Amazon Echo o Google Home supuestamente «espían» a sus usuarios, que si almacenan grabaciones de todo tipo, que si no las borran jamás, y que si las venden a todo tipo de socios, y cada día más impresiona más la ignorancia sobre este tipo de temas, en un entorno en el que, aunque sea por puro rozamiento, deberíamos entenderlos cada vez mejor.

Todo se origina en un par de noticias: la primera, en los Estados Unidos, corresponde a una carta escrita el pasado mayo por un senador demócrata norteamericano, Chris Coons, a Jeff Bezos, demandando información sobre el tratamiento de las grabaciones efectuadas por Amazon Echo, a la que la compañía respondió que esas grabaciones permaneces almacenadas y son utilizadas por la compañía sin fecha de caducidad, salvo que sean expresamente eliminadas por el usuario. La segunda es una noticia de un medio belga que tuvo acceso a un archivo de grabaciones almacenadas de Google Home, y que se escandaliza con el hecho de que Google las tenga almacenadas y las utilice.

Primera cuestión: estas noticias no son «descubrimientos», ni «escándalos», ni nada que se le parezca, por mucho que periodísticamente pueda resultar interesante presentarlas como tales. Cualquiera con un mínimo conocimiento de cómo funcionan estas cosas sabe perfectamente que las grabaciones, intencionadas (cuando el usuario invoca el comando que activa el asistente) o fallidas (cuando el asistente cree haber escuchado ese comando) son utilizadas no solo para llevar a cabo el comando en cuestión, sino también almacenadas, salvo que se especifique expresamente lo contrario, para mejorar la tecnología de reconocimiento de voz. ¿Puedes oponerte a ello? Sí, tanto en Amazon Echo como en Google Home puedes desactivar la casilla correspondiente, y con ello, impedirás que las grabaciones que recogen tus dispositivos sean utilizadas para entrenarlos.

Si no quieres tener uno de esos dispositivos, también puedes decidir no tenerlo, nadie te obliga a ello. Pero si decides tenerlo, es importante que entiendas que entrenar dispositivos supone, por lo general, que una persona escuche una grabación, que la etiquete y categorice lo mejor posible, y que la incorpore a una base de datos convenientemente anonimizada, base de datos que no tiene ningún sentido perder, porque es valiosa para precisamente esa tarea, entrenar algoritmos de reconocimiento de voz. Por supuesto, por muy anonimizada que esté, sigue siendo tu voz, y posiblemente serías capaz de reconocerte: simplemente, la grabación ha sido desasociada de la información personal de tu cuenta. Si todos hacemos eso, si todos renunciamos expresamente a la posibilidad de que las grabaciones que generamos con nuestro uso diario sean utilizadas para mejorar los algoritmos de reconocimiento de voz, será más complicado para las compañías tecnológicas obtener materiales para entrenar sus algoritmos, y nuestros dispositivos serán más torpes durante más tiempo. Si te sientes mejor así, puedes libremente hacerlo. Eso es todo. ¿Es lo que queremos?

Escandalizarse porque un dispositivo diseñado para escucharnos cuando hablamos, vaya y nos escuche cuando hablamos, es tremendamente absurdo. Si no quieres que te escuche, dale al botoncito que tiene, y desconectarás sus micrófonos. Puedes hacerlo en cualquier momento, aunque tener un asistente de voz para tenerlo todo el tiempo con sus micrófonos desconectados raya el absurdo existencial. Pero publicar noticias afirmando que nos espía, o que almacena nuestras grabaciones y no las borra nunca, es puro sensacionalismo: no nos espía, simplemente nos escucha como se espera que haga, aunque en algunas ocasiones – la tecnología no es perfecta – se active cuando no hemos pretendido utilizarlo. Creer que esos fallos son indicativos de que el dispositivo o la compañía nos está espiando es, sencillamente, una estupidez. Montar un lío mediático porque las grabaciones son almacenadas por las compañías es otra tontería: ¿por qué razón van las compañías a eliminar materiales valiosos que pueden ser utilizados para entrenar algoritmos de reconocimiento de voz? ¿Cómo esperamos que se entrene a un algoritmo de reconocimiento de voz, si no es mediante una muestra muy grande de grabaciones de voces? En las voces hay mucha información, y para entrenar algoritmos son completamente necesarias: acentos, modismos, formas variadísimas de pedir o preguntar algo… el entrenamiento de este tipo de algoritmos es algo complejo, y únicamente puede hacerse si podemos alimentarlos con enormes colecciones de grabaciones. Simplemente, no hay otra manera adecuada de hacerlo.

Por supuesto, esto no quiere decir que las compañías tecnológicas hagan las cosas siempre bien, ni que sean angelitos. Si una compañía tecnológica permite que esas grabaciones sean filtradas y vayan, además, vinculadas a la identidad de los usuarios – que no ha sido el caso, al menos por el momento – debería ser convenientemente castigada. Si incumple las preferencias expresadas por esos usuarios y almacena las grabaciones de aquellas personas que habían reclamado expresamente su exclusión, también. Pero en caso contrario, escandalizarnos porque nuestras grabaciones sean incorporadas a un archivo de entrenamiento es, sencillamente, absurdo. No, nadie nos está espiando. No, no están circulando nuestras grabaciones entre los empleados. Simplemente, son escuchadas y etiquetadas para tratar de entender de qué se trataba cada una, y mejorar la forma en la que el asistente las interpreta. ¡Oh, dios mío, empleados de Amazon o de Google escuchan lo que digo cuando estoy en mi casa!! Pues claro, es la única manera de etiquetarlo. De eso, no de otra cosa, se trata el machine learning. Es así como funciona.

Cuanto antes nos dejemos de falsos escándalos y de supuestas revelaciones, antes empezaremos a entender conceptos ya tan básicos como el de recolección de datos, etiquetado o entrenamiento de algoritmos. No, a nadie le interesa guardarse tu voz como su fuera un preciado tesoro, ni para filtrarla a la prensa más adelante, ni para avergonzarte publicándola en ningún sitio. No es eso. Desengáñate: nadie tiene el menor interés en espiarte, simplemente en entender qué diablos querías cuando le dijiste a tu asistente lo que le dijiste, o cuando creyó entender que le estabas pidiendo algo. Eso es todo.

Con el tiempo, los asistentes tendrán suficiente capacidad de proceso como para procesar la mayoría de las órdenes que les damos en el propio dispositivo, sin enviarlas a ningún sitio, y funcionarán, además, mejor, con menos confusiones e intentos fallidos. Pero eso solo lo alcanzaremos si nos dejamos de paranoias absurdas y de supuestos escándalos, y entendemos lo que las compañías hacen con esos datos que generamos. Nadie dice que no haya que castigar a las compañías cuando hacen las cosas mal, pero en este caso, no han hecho las cosas mal, han hecho lo que era lógico hacer. Más cultura, por favor, y menos alborotos injustificados.