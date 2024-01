Mi columna de esta semana en Invertia se titula «Getty Images y la lógica de los datos» (pdf), y habla de la evolución del repositorio de imágenes digitales Getty Images desde que, a finales de 2022, descubrieron que todas sus imágenes y sus descripciones habían sido capturadas, con sus marcas de agua y todo, por una compañía de desarrollo de algoritmos generativos, Stability AI, para entrenar un producto llamado Stable Diffusion, con el que además, muchos usuarios podían ahora evitarse el uso de imágenes de Getty y simplemente generar las suyas completamente libres de derechos de autor.

La imagen con la que ilustro este artículo, creada por The Verge mediante Stable Diffusion, me parece icónica: dentro de no mucho tiempo, podremos evocar cómo los primeros algoritmos generativos distorsionaban torpemente las imágenes de caras o añadían dedos extra a las manos, e incluso intentaban reproducir la marca de agua que se encontraban en muchas de las imágenes con las que habían sido entrenados. Compara eso con las últimas versiones de algunos de esos algoritmos es una prueba más de la apabullante velocidad de desarrollo de la tecnología.

La subsiguiente denuncia de Getty Images contra Stability AI se ha convertido, junto con la de The New York Times contra OpenAI, en elementos clave para entender la evolución y la regulación de los algoritmos generativos y sus ramificaciones dentro de los derechos de autor y el copyright. Si yo puedo ir a un museo, ver todas las obras de un pintor determinado, e inspirarme en su estilo para pintar un cuadro similar, ¿por qué no puede un algoritmo «ingerir» todas las imágenes de un repositorio para, posteriormente, generar imágenes diferentes pero basadas en ellas?

Obviamente, la respuesta no es tan simple: lo que las compañías desarrolladoras de algoritmos generativos están haciendo no es simplemente capturar imágenes que están disponibles en abierto (con su correspondiente marca de agua, de ahí que hasta intenten reproducirla), sino ahorrarse un trabajo enorme de etiquetado de imágenes recurriendo a las páginas web de compañías que ya lo habían hecho anteriormente, para crear con ellas su producto. Un producto que, además, puede ser utilizado precisamente en lugar de los de esas compañías: son ya muchas las páginas que ilustran con imágenes generadas por Stable Diffusion para evitar incluir imágenes procedentes del repositorio de Getty Images por las que tendrían que pagar; y no cuesta mucho imaginarse, en un futuro nada lejano, a alguien sustituyendo la lectura de The New York Times por una consulta a ChatGPT con distintas variaciones del prompt «¿qué ha pasado hoy?»

Pero lo verdaderamente interesante es, en realidad, lo que pasa a partir de ahí: Getty Images ha reaccionado a las acciones de Stability AI, además de con su denuncia ante los tribunales, desarrollando ella misma su propio algoritmo generativo entrenado en exclusiva con sus imágenes y en colaboración con Nvidia, la compañía que se ha convertido en billonaria diseñando los chips que se utilizan para entrenar a la mayoría de estos algoritmos.

Esa es, en realidad, la verdadera lección que pretendo destacar: si la disrupción impacta tu negocio, podrás intentar recurrir a los tribunales y ganarás o perderás, pero sobre todo, utilízala: lo que Getty hace, además de intentar detener por la vía legal a Stability AI, es utilizar sus propias armas, su enorme repositorio de imágenes etiquetadas, para construir un nuevo producto, Generative AI by Getty Images, que le permita ofrecer a sus usuarios la posibilidad de generar sus propias imágenes.

Con eso, por un lado, aprende de la disrupción y la integra en sus procesos, lo que le permite defenderse y mejorar su producto. Por otro, justifica ante el juez la evidencia de que Stability AI le está, en realidad, haciendo la competencia de manera desleal utilizando sus propios datos, los que Getty Images lleva generando durante años. Con ello, obtiene un argumento potencialmente más contundente que podría ayudar a Getty Images a obtener un acuerdo extrajudicial o un veredicto más ventajoso, porque, no lo olvidemos: de lo que se trata aquí, y lo que pretende Getty Images, no es que Stability AI deje de utilizar su repositorio (algo que en realidad ya ha hizo hace tiempo), sino de ponerle el precio correspondiente y de obligarla a pasar por caja.

La lección es clara para todas las compañías: examina tus repositorios de datos, todos los datos que has generado para dar soporte a tu actividad o los que ha generado tu propia actividad, y sobre todo, aquellos que puedan de alguna manera ser públicos, y piensa en qué podrías hacer con ellos utilizando las herramientas algorítmicas adecuadas. Eso te permitirá dar más valor a tu compañía integrando esta tecnología como parte de sus procesos. Pero además, piensa que si no lo haces tú, lo va a hacer otro, bien con sus propios datos parecidos a los tuyos (un competidor) o incluso, si es posible, con los tuyos propios. Y eso, como bien sabe Getty Images, no sienta nada bien.