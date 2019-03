Un artículo de investigación de NBC, “Facial recognition’s ‘dirty little secret’: Millions of online photos scraped without consent“, saca un tema interesantísimo al hilo del uso de fotografías por parte de IBM para entrenar sus algoritmos de reconocimiento facial: la compañía utilizó fotografías extraídas de Flickr y publicadas con licencias Creative Commons para crear una base de datos – que recientemente publicó en abierto – y utilizarla en el desarrollo de su tecnología.

El tema me toca de cerca: soy usuario de Flickr prácticamente desde sus inicios, aunque haga tiempo que no la utilizo, tengo más de 3,600 fotografías en su repositorio, y publico además todas mis fotos – como la inmensa mayoría de mi toda mi producción profesional – con el modelo de licencia Creative Commons menos restrictivo (CC BY o Atribución). Utilizando una herramienta que la propia NBC ha creado para poder consultar la base de datos que IBM ha utilizado para el entrenamiento de sus algoritmos de reconocimiento facial, veo que la compañía ha tomado tres imágenes de mi colección, algunas de ellas fotografías tomadas en algún evento en las que aparezco yo con amigos. Amigos que, sin duda, no tuvieron ningún problema con que las publicase ni con que las etiquetase o asociase una licencia abierta, pero que se encuentran ahora con que sus caras, y posiblemente algún elemento más de los metadatos o de la información asociada a la imagen como sus nombres, han sido utilizados por una compañía para desarrollar una tecnología cuyo uso se asocia con bastantes elementos de polémica.

El asunto es complicado, así es que dividámoslo en partes: en primer lugar. la legalidad del uso de las fotografías. Estoy completamente acostumbrado a que muchas de mis fotografías sean utilizadas para muchos fines. Sé por supuesto lo que conllevan las licencias abiertas, y, por lo general, me divierte y me gusta encontrarme una fotografía hecha por mí y utilizada en alguna publicación: nunca pensé que siendo, como soy, un fotógrafo que no pasa del nivel de aficionado, podría tener fotografías publicadas en medios de todo tipo como Wired. Sin embargo, la pregunta de si es legal el uso que IBM está haciendo de esas fotografías tiene otros matices, porque no se trata tanto del uso de las fotografías como tal, sino específicamente de un elemento, las caras de las personas incluidas en ellas, sobre el que, lógicamente, ni soy quien para decidir los posibles usos, ni debería tener derecho alguno.

¿Cometí un error al etiquetar por defecto todas mis fotografías como Creative Commons BY y debería, por ejemplo, haber excluido de dicha licencia y mantenido en copyright estricto todas aquellas que contuviesen imágenes de personas? Es posible que sea así, que mi aplicación de la licencia no fuese completamente responsable o que en aquel momento no me plantease determinadas posibilidades. Posiblemente, utilizar un mecanismo de licenciamiento por defecto, una blanket license, de todas mis fotografías, no fue del todo correcto, y debería haberme planteado, cada vez que subía una fotografía a Flickr, el tipo de licencia que debería llevar, no lo sé. Ahora bien, incluso considerando que el error estuviese en mí como autor de las imágenes por utilizar un mecanismo que Flickr me ofreció, ¿tiene sentido que IBM explote ese error y decida utilizar mis fotografías, con las caras de mis amigos, como parte de una base de datos? ¿No está, con ello, excediendo el uso de una licencia que, en principio, se diseñó para regular el uso público de las imágenes, y no para otros usos? Sin ser abogado, creo que el caso podría seguramente dar para más de una argumentación.

Por otro lado, IBM afirma que se limitó a utilizar un fichero de cien millones de imágenes de 14GB que Yahoo!, entonces propietaria de Flickr, publicó en abierto en Yahoo! Research para su uso por investigadores, lo que podría trasladar la discusión sobre la responsabilidad de un posible mal uso de la licencia a otro domicilio. Esa base de datos original fue reducida en tamaño por IBM, que la convirtió en un fichero de aproximadamente un millón de caras, y suplementada añadiendo unos doscientos valores que van desde medidas de determinadas dimensiones faciales hasta cuestiones como el tipo de pose, el tono de piel, el género o la edad estimada.

A partir de ahí, esa base de datos ha sido utilizada para entrenar todo tipo de algoritmos, incluidos algunos de uso policial, o su propia herramienta, IBM Watson Visual Recognition, que permite la estimación de edad o género de personas, o incluso el reconocimiento de personas específicas en fotos o vídeos. Considerando la polémica asociada con las tecnologías de reconocimiento facial, posiblemente la compañía debería como mínimo haberse planteado la posibilidad de solicitar el correspondiente permiso a los autores de las fotografías, en lugar de suponer que una licencia determinada que nunca estuvo, en su concepción, asociada con ese tipo de usos podía ser interpretada como un permiso afirmativo y, sobre todo, ilimitado.

En este caso, IBM afirma haber utilizado esa base de datos para tratar de reducir sesgos en el reconocimiento facial y mejorar la calidad de esa tecnología. Pero esa base de datos está ahí, disponible en abierto para cualquiera que se la quiera descargar: ¿cuántos usos y de qué tipo pueden potencialmente llevarse a cabo con ella? ¿Realmente tiene sentido que esos posibles usos puedan realizarse sin mediar ningún tipo de permiso expreso, sin derecho de oposición o sin ningún tipo de información?

¿Está el problema en un exceso de confianza por parte de los autores de las fotografías o en una mala interpretación de las posibilidades que ofrecían esas licencias? ¿En una interpretación abusiva de las compañías sobre esos contenidos? ¿Error mío? ¿Error de Yahoo!? ¿Error de IBM? ¿De todos? Pero sobre todo… ¿existe, como tal, un problema, o es una situación, la del uso de todo aquello que publicamos en la red para cualquier fin, a la que, sencillamente, nos vamos a tener que acostumbrar?

This article was also published on Forbes, “The day I fed my friends to an IBM algorithm“