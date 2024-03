OpenAI acaba de anunciar acuerdos con PRISA, editores del diario El País en España, y con los editores de Le Monde en Francia, con el fin de alimentar de contenido las versiones en español y francés de ChatGPT y de otros modelos generativos.

Los acuerdos resultan interesantes porque tienen lugar en medio de la batalla legal de la compañía al otro lado del océano con The New York Times, que la ha llevado a los tribunales por utilizar su contenido sin ningún tipo de permiso ni acuerdo. Lógicamente, los acuerdos con editores de medios indican que la compañía no tienen ninguna intención de seguir desencadenando litigios por apropiación de propiedad intelectual con medios de todo el mundo.

Para justificar la demanda, los editores de The New York Times presentaron varios prompts que, al ser interpretados por el algoritmo, daban como resultado artículos textuales del propio medio, lo que evidenciaba que la compañía había utilizado esos artículos en su entrenamiento. OpenAI, sin embargo, argumenta que esos resultados no pueden obtenerse mediante un uso natural de su algoritmo, y que se corresponden con algún tipo de hackeo en el cual alguien ha introducido previamente una serie de restricciones para conseguir ese resultado. Ese extremo es negado por los editores del periódico, que afirman que es «tan irrelevante como falso«, y exigen compensaciones por el uso de sus artículos.

Estamos ante una cuestión fundamental: ¿puede llevarse a alguien a los tribunales porque, tras leer un periódico, elaboró un articulo basado en sus contenidos? Lógicamente, no es así, y hasta el momento, la mayor parte de los juicios que partían del llamado web scraping, la apropiación mediante bots de contenidos puestos a disposición del público, se habían fallado a favor de las compañías que gestionaban esos bots, con la excepción de comportamientos claramente malintencionados. En este caso, por supuesto, la cuestión no es tan obvia, dado que no se trata de alguien leyendo un periódico, sino de un algoritmo que toma todos los artículos publicados en un medio y los utiliza para alimentar un proceso generativo, lo que seguramente llevará a muchas reflexiones jurídicas.

Lo que parece claro es que quien tiene un contenido considerado de calidad que pueda ser utilizado para entrenar a un algoritmo, está en este momento sentado en una potencial mina de oro, y está simplemente a la espera de que lleguen ofertas para poder utilizarlo. Esto, por otro lado, desencadenará una carrera entre los algoritmos entrenados con información de calidad, de medios de prestigio o de autores razonablemente interesantes, frente a otros que, en ausencia de tales acuerdos, tendrán que entrenarse con medios de calidad inferior o con elementos con un valor más dudoso, recorriendo seguramente toda la cadena trófica desde los grandes medios, hasta los tabloides sensacionalistas, lo que hará que podamos terminar viendo auténticas aberraciones.

Por el momento, que a un medio le garanticen un pago recurrente por poder utilizar las noticias que iba a producir de todas maneras para alimentar un algoritmo generativo no deja de ser una buena noticia para las generalmente maltrechas cuentas de resultados de sus editores. Pero ya veremos, con el tiempo, cuáles son las consecuencias de restringir los elementos con los que puede o no puede entrenarse una inteligencia artificial…