¿Robando periódicos o llegando a acuerdos con ellos?

OpenAI acaba de anunciar acuerdos con PRISA, editores del diario El País en España, y con los editores de Le Monde en Francia, con el fin de alimentar de contenido las versiones en español y francés de ChatGPT y de otros modelos generativos.

Los acuerdos resultan interesantes porque tienen lugar en medio de la batalla legal de la compañía al otro lado del océano con The New York Times, que la ha llevado a los tribunales por utilizar su contenido sin ningún tipo de permiso ni acuerdo. Lógicamente, los acuerdos con editores de medios indican que la compañía no tienen ninguna intención de seguir desencadenando litigios por apropiación de propiedad intelectual con medios de todo el mundo.

Para justificar la demanda, los editores de The New York Times presentaron varios prompts que, al ser interpretados por el algoritmo, daban como resultado artículos textuales del propio medio, lo que evidenciaba que la compañía había utilizado esos artículos en su entrenamiento. OpenAI, sin embargo, argumenta que esos resultados no pueden obtenerse mediante un uso natural de su algoritmo, y que se corresponden con algún tipo de hackeo en el cual alguien ha introducido previamente una serie de restricciones para conseguir ese resultado. Ese extremo es negado por los editores del periódico, que afirman que es «tan irrelevante como falso«, y exigen compensaciones por el uso de sus artículos.

Estamos ante una cuestión fundamental: ¿puede llevarse a alguien a los tribunales porque, tras leer un periódico, elaboró un articulo basado en sus contenidos? Lógicamente, no es así, y hasta el momento, la mayor parte de los juicios que partían del llamado web scraping, la apropiación mediante bots de contenidos puestos a disposición del público, se habían fallado a favor de las compañías que gestionaban esos bots, con la excepción de comportamientos claramente malintencionados. En este caso, por supuesto, la cuestión no es tan obvia, dado que no se trata de alguien leyendo un periódico, sino de un algoritmo que toma todos los artículos publicados en un medio y los utiliza para alimentar un proceso generativo, lo que seguramente llevará a muchas reflexiones jurídicas.

Lo que parece claro es que quien tiene un contenido considerado de calidad que pueda ser utilizado para entrenar a un algoritmo, está en este momento sentado en una potencial mina de oro, y está simplemente a la espera de que lleguen ofertas para poder utilizarlo. Esto, por otro lado, desencadenará una carrera entre los algoritmos entrenados con información de calidad, de medios de prestigio o de autores razonablemente interesantes, frente a otros que, en ausencia de tales acuerdos, tendrán que entrenarse con medios de calidad inferior o con elementos con un valor más dudoso, recorriendo seguramente toda la cadena trófica desde los grandes medios, hasta los tabloides sensacionalistas, lo que hará que podamos terminar viendo auténticas aberraciones.

Por el momento, que a un medio le garanticen un pago recurrente por poder utilizar las noticias que iba a producir de todas maneras para alimentar un algoritmo generativo no deja de ser una buena noticia para las generalmente maltrechas cuentas de resultados de sus editores. Pero ya veremos, con el tiempo, cuáles son las consecuencias de restringir los elementos con los que puede o no puede entrenarse una inteligencia artificial…

This article is also available in English on my Medium page, «Newspapers are realizing that they’re sitting on a goldmine«

#001
menestro - 14 marzo 2024 - 11:31
No lleva a ninguna disquisición jurídica, es una clara vulneración de los derechos de autor como ya he explicado en otros comentarios.
El procesamiento o tratamiento digital por el medio que sea de una obra oringinal, es un supuesto sujeto a derechos de autor en todas partes, y en Europa, no se presta a ninguna interpretacion de la supuesta Fair use act.
Los algoritmos generativos no se «inspiran» procesan datos y los someten a un tratamiento digital, por lo que no hay ninguna semejanza con nada que haga una persona.
Hay una perfecta línea de separación entre la inspiración y el tratamiento de datos por un sistema de LLM. Tanto jurídica como tecnológicamente.
Cognitivamebte, ni te cuento.
Por eso, OpenAI está evitando entrar en conflicto judicial multimillonario en Europa. No por la calidad de los datos, sino por su uso como materia prima para dos procesos totalmente diferenciados; el entrenamiento generativo y el uso de fuentes contrastadas y con información verificada.
Confío que el programa de estudios cuente con refuerzo en el área de PI, por que esto no es un debate bizantino, sino un concepto jurídico fundamental.
No es que los algoritmos de generación de contenidos sean Bella Baxter, precisamente.
Por cierto, que lo de la «calidad inferior» ya tiene su gracia; necesitamos algoritmos egoticos para hacer juicios de valor singulares y únicos. No sé, entrenados en sentencias bíblicas o algo.
–
- Carlitos Marx - 15 marzo 2024 - 12:17
  En sentencias biblicas ??
  Joder. Vuelve la Inquisición !!!
- f3r - 16 marzo 2024 - 12:23
  «Hay una perfecta línea de separación entre la inspiración y el tratamiento de datos por un sistema de LLM»
  Me da la sensación de que NO tienes conocimiento técnico de cómo funciona una LLM. Si no es así, por favor argumenta eso que has dicho, ya que choca frontalmente con todo lo que he leído/estudiado.
#004
Xaquín - 14 marzo 2024 - 11:46
«algoritmos entrenados con información de calidad, de medios de prestigio o de autores razonablemente interesantes, frente a otros que, en ausencia de tales acuerdos, tendrán que entrenarse con medios de calidad inferior o con elementos con un valor más dudoso» (EDans)
Ah, pero no hablas de los humanos, en modo rapiña (de todo tipo)???
#005
PEDRO.P - 14 marzo 2024 - 12:12
El mayor problema es una vez más la falta de traza de la información presentada por estos LLMs, me preocupa tanto que el resultado de los prompts sea utilizando información solo del El País o Público como si solo usaran ABC u OK Diario. Mejor si me dicen que fuentes han usado para elaborar las respuestas.
#006
Lua - 14 marzo 2024 - 13:32
El sentido crítico ha desaparecido. La gente, lee la prensa “de parte”.
Y “como lo han dicho los míos, será verdad”.
Ahora solo hace falta, darles la excusa de “lo ha dicho la IA, así que será verdad”.
Quien verifica al verificador?
La prensa, es la grasa que alimenta las fakes news. La prensa, tiene un problema, y es necesitar de la publicidad institucional, de las subvenciones para poder subsistir. Y eso hace, que la información siempre sea “de parte”.
No me convence. Como apunta PEDRO.P, es necesario que se indique siempre cual es la fuente del resultado que nos ofrezca. Pero la gente es poco dada a contrastar.
- Carlitos Marx - 15 marzo 2024 - 12:19
  100 % de acuerdo.
#008
Félix Maocho - 14 marzo 2024 - 14:10
Los periódicos no son los propietarios de derechos de autor, sino los autores de las noticias, ¿Cobraran algo de lo que han sacado a Open Ai los periodistas y columnistas habituales de los de los periódicos? ¿Cobrará algo el redactor de la agencia EFE que suministra las noticas a los periódicos?.
- Lua - 14 marzo 2024 - 14:16
  Un periodista trabaja para un periodico, de la misma forma que un programador lo hace por una empresa (o llevandolo al extremo, un camarero para un bar)
  Asi que el fruto de su trabajo, es propiedad de la empresa.
- c3po - 14 marzo 2024 - 15:11
  Exactamente lo mismo que los voluntarios de reddit, o que tu por comentar en este blog
- Félix Maocho - 14 marzo 2024 - 16:35
  Eso quiere decir, que si a «El País» le da por publicar un tomo con las columnas de Fernando Savater, lo puede hacer:
  a) Sin permiso de Frenando Savater,
  b) Si que Savater vea un euro.
  Yo lo dudo mucho, como no pierden sus derechos el escritor que ceden su trabajo a una editorial para que publiquen un volumen.
  - Rodrigo - 14 marzo 2024 - 17:02
    Un periodista normal tendrá un contrato habitual pero alguien como Fernando Sabater puede que tenga especificado en su contrato a quién pertenecen los derechos. Eso haría yo si estuviese en su lugar.
  - Lua - 14 marzo 2024 - 17:48
    El escritor que publica un volumen, no esta «cediendo» nada. Tiene un contrato con una editorial para poder publicar aquello que ha escrito. (yo escribo, tu publicas)
    El escritor, que escibe una columna diaria, semanal o mensual, para un determinado periodico, tiene un contrato AS IS para ello. Escribe su columna, y cobra por ello. eDans te lo confirmara.
    El «periodista» (a ver si dejamos de mezclar cosas), que esta contratado por un periodico, ejerce su trabajo, investigar, indagar, escribir sobre hechos concretos, generalmente de actualidad. Cobra por ello, escriba mas o escriba menos.
    Y en cualquiera de estos dos ultimos casos, a menos que no este especificado en el contrato (y hay jurisprudencia por ello) la propiedad es del empleador.
    - Lua - 14 marzo 2024 - 18:02
      Mis disculpas, donde dice AS Is, es Ad Hoc.
  - c3po - 14 marzo 2024 - 20:29
    Una recopilación de sus columnas cavernarias, la sacó en «Solo integral» en 2021.
#016
Morath - 14 marzo 2024 - 20:24
Tengo una duda que no he sabido aclarar / responder porque me acabo perdiendo al tirar del hilo:
– Un medio M1 escribe un artículo A1 sobre un tema X1.
– Otro medio M2 «escribe» un artículo A2 sobre ese tema X1 copiándolo, literalmente. Tan copiado que no solo no pone enlaces a la fuente, ni siquiera la menciona para dificultar que se rastree de dónde han copiado el artículo.
– El primer medio M1 dice que no quiere que se use su contenido para alimentar a las AI.
– El segundo medio M2, que es un poquito lerdote (hay que serlo para razonar como han razonado con lo de citar las fuentes) no se entera de la misa la mitad, no dice nada y es utilizado por la IA para nutrirse.
– Un usuario pregunta a la IA y le responde con información de ese artículo A2 del medio M2 que, a todos los efectos es como si fuera el artículo A1 del medio M1.
¿Está haciendo algo malo la IA?
¿Cómo sabe esa IA que lo que ha leído no es un contenido legítimo?
Nota: Donde pone IA, podemos poner a cualquier usuario mondo y lirondo que, si no conoce lo cutre que es el medio M2, puede no llegar a conocer que lo que le están contando son sandeces o, en el mejor de los casos, artículos copipegados de otros.
Nota: Puede parecer que estas prácticas son antiguas, pero no, están a la orden del día, en algún que otro medio como el M2 de esta metáfora.
#017
Chipiron - 15 marzo 2024 - 09:41
Dos comentarios:
1) La relación de un periodista con un diario dependerá del tipo de contrato. Si no se especifica de forma clara, como ha dicho LUA antes, lo lógico es que la propiedad del contenido sea del publicador, no del autor.
2) La polémica es similar a la que ya hemos discutido todos con Dal.li y otros algoritmos generativos: donde está la frontera entre la inspiración y la copia? Si Picasso fue el máximo exponente del cubismo, cualquiera que hiciese obras con ese mismo estilo copiaba o se inspiraba en Picasso?
Yo creo que debería hacerse un experimento en el que se diseñase una LLM sólo con contendio abierto, como articulos científicos «open access», la wikipedia, obra de clásicos que ya no tienen copyright, etc.. Y haber que pasaba.
Y ya puestos, otra LLM con inputs de las publicaciones más creibles y selectas (en todos los ámbitos) para ver si se reduce el número de alucinaciones.
- Carlitos Marx - 15 marzo 2024 - 12:25
  Interesante propuesta.
  Hay mas variantes posibles.
  Y creo que bien ya podrian ofrecer esas variantes las empresas de IA.
  Veremossss ….
- f3r - 16 marzo 2024 - 12:28
  «Yo creo que debería hacerse un experimento en el que se diseñase una LLM sólo con…»
  Eso tendría sentido, así que queda descartado para siempre.
#020
f3r - 16 marzo 2024 - 12:30
La verdad es que esto se pone interesante: una humanidad con el cerebro cada vez más vacío y cada vez más herramientas que pueden potenciar esa estulticia a cotas estratosféricas.
Esperemos que no nos joda la fiesta una tercera guerra mundial en el/los próximo año/s.