Entrenando algoritmos… ¿con qué?

A medida que se incrementa la popularidad de las herramientas basadas en algoritmos generativos, van surgiendo demandas de compañías y de autores que consideran que sus creaciones de diversos tipos han sido utilizadas para el entrenamiento de estas herramientas, y que pretenden algún tipo de negociación que va desde la eliminación de sus datos de los archivos de entrenamiento, hasta las compensaciones económicas.

Varias investigaciones han revelado, por ejemplo, listados de cientos de miles de libros o de infinidad de páginas web y sitios de noticias con los que las compañías han entrenado a sus algoritmos generativos, generalmente amparándose en el derecho al web scraping de todos los datos que se encuentren en formato abierto y a disposición del público en general. Este tipo de técnicas han permitido a las compañías dedicadas al desarrollo de algoritmos generativos hacerse con enormes cantidades de datos que ahora son rutinariamente empleados para su entrenamiento.

La pregunta, ahora, es si efectivamente, los autores de esas creaciones deben ser compensados por ello: si alguien lee un libro e, inspirado por esa lectura, escribe otra cosa o tiene una idea y se hace millonario, ¿a alguien se le ocurre que el autor del libro reciba una compensación por ello? Si un pintor se inspira en las obras de otros, ¿acaso tienen los que le inspiraron derecho a parte de sus ganancias?

Pero más allá de eso… ¿qué es lo que realmente pretendemos? Cuando The New York Times, sin duda uno de los medios de comunicación más prestigiosos del mundo, decide bloquear la posibilidad de que los algoritmos generativos se entrenen con sus páginas… ¿qué está intentando que ocurra? ¿Que le compensen por ello, o que ante su ausencia, los algoritmos se tengan que entrenar con publicaciones mucho menos edificantes y fiables, como el New York Post, RT, The Sun o Bild? ¿Qué queremos? ¿Algoritmos completamente idiotas o tremendamente peligrosos como resultado de haber sido entrenados con noticias de medios amarillos, sensacionalistas o conspiranoicos? Llevo muchísimos años leyendo habitualmente The New York Times, y francamente, saber que un algoritmo generativo puede haber heredado algunos esquemas basados en sus artículos me parece un atributo positivo.

Recientemente supe que el sitio en el que escribo mis artículos en inglés, Medium, está en un listado de páginas que rutinariamente son utilizadas para entrenar algoritmos. En esa lista está desde Wikipedia hasta Coursera, pasando por múltiples journals académicos y muchas otras páginas consideradas razonablemente fiables, y dentro de la categoría de tecnología, que supone en torno a un 15% del total, Medium es una de las fuentes. Esto me permite suponer, dada mi prolífica producción, que muchos algoritmos se entrenan con artículos míos de forma habitual, algo además coherente con el hecho de haberme encontrado desde que empecé a probarlos con el hecho de que todos ellos conocían mi nombre.

¿Debería seriamente pretender alguna compensación por ello? ¿Debo pretenderla, acaso, si un alumno aprende conceptos en mi clase que posteriormente utiliza para montar una compañía y hacerse millonario? ¿O si alguien me lee habitualmente y se inspira para crear algo valioso? Al contrario: si eso ocurriese y, además, tuviese la posibilidad de llegar a saberlo, me sentiría enormemente orgulloso de ello, y me animaría a seguir escribiendo. Es más: si una serie de algoritmos se han entrenado con cosas escritas por mí, lo prefiero con mucho a que se hubiesen entrenado con vaya-uno-a-saber-qué-cosas que se puede encontrar por la red.

De hecho, yo mismo hago uso de la capacidad de los algoritmos para leer artículos alimentándolos previamente con los míos, antes de pedirles, por ejemplo, que lleven a cabo un proofreading de una traducción para mí. Eso me asegura que, además de escribir correctamente y comprobar cosas como la elección adecuada de términos, las concordancias o las preposiciones, el algoritmo escribe de una manera que se asemeja a mi estilo. ¿Preferiría ser un completo desconocido para el algoritmo y recibir unas correcciones completamente genéricas, o basadas en el estilo de otro autor o autores? ¿Por qué debo diluir mi estilo con uno común o predominante?

Si los algoritmos generativos van a ir, más que previsiblemente, incrementando su participación en cada vez más tareas, prefiero francamente que se entrenen con materiales adecuados a que lo hagan únicamente con el subconjunto de los que pueden acceder porque no les ponen limitaciones. No quiero ni imaginarme qué tipo de conclusiones obtendría un algoritmo entrenado en según qué foros o con según qué autores. Si la información que producimos va a ser utilizada rutinariamente para entrenar algoritmos, procuremos que esa información que utilizan sea lo más fiable posible, y mantengamos la basura lejos de esos repositorios de datos. Por el bien de todos.

This article is also available in English on my Medium page, «It’s in everyone’s interest for algorithms to be trained using the best source material»

#001
Xaquín - 20 agosto 2023 - 19:10
«¿Qué queremos? ¿Algoritmos completamente idiotas o tremendamente peligrosos como resultado de haber sido entrenados con…» (EDans).
Este problema ya se dio en el sistema educativo/domesticador, cuando algunos profes nos vimos en la tesitura de que, si usábamos ciertas fuentes, sobre todo en imágenes (cuando empezó el mundo de la diapositiva, por ejemplo), tendríamos que pagar par usarla en el aula.
Una muestra de piratería editorial, ya que ni siquiera debe pagar un Ministerio de Educación, por ese uso específico, sin ánimo de lucro y que, precisamente, supone un medio de difusión de la imagen usada.
En fin, cafradas varias, con el sacrosanto derecho de autor por bandera. Y no me refiero a pagar la obra, cosa lógica, me refiero al derecho feudal de seguir cobrando por ella. Incluso los que no fueron autores de la misma, solo descendientes.
Pero también es cierto que si educo a «mi» IA, con lo que tengo en mi cabeza (adquirido por ahí) , ya solo faltaría que me quisieran cobrar por el uso. Incluso si el trabajo colaborativo de la IA se hace luego «pagable».
Pero lo importante, como siempre, es el proceso de «compra/venta», no el de formación del alumnado, en este caso algorítmico. Como si educar a una cría humana, con IH (en fase de maduración), fuese tan diferente de educar a una IA, también en fase de maduración, pero con un nivel de atención y de memorización, a años luz del alumnado analógico.
¿Y cuándo nos pagarán derechos de autor al profesorado que deja huella (positiva) en su alumnado? Porque hay profes mucho más creativos, que algunos de los artistos, que viven del cuento de su pintura o novela, por ejemplo. O una multa permanente (mientras no mejore) al profesorado, que deja algo cortocircuitado el cerebro de su alumnado. Efecto que abunda mucho más de lo que queremos reconocer.
#002
Javier - 20 agosto 2023 - 19:54
• E. Dans elige que sus publicaciones alimenten a una IA
• El NYT elige que sus publicaciones no alimenten a una IA
Autonomía (filosofía y psicología)
La autonomía (del griego auto, «uno mismo», y nomos, «norma») es un concepto moderno, procedente de la filosofía y, más recientemente, de la psicología, que, en términos generales, expresa la capacidad de cada persona para darse reglas a sí misma o de tomar decisiones sin intervención ni influencias externas. Se opone a heteronomía
Todos felices y santas pascuas ¿no?
#003
Juan T. - 20 agosto 2023 - 21:21
Veo inevitable que , dentro de la competencia y evolución darwiniana de las IAs, unas se entrenen con buenos datos, que posiblemente tendran que pagar a sus propietarios, y otras con malos.
Simplemente las buenas se someterán a auditorias que harán pruebas de calidad que las diferencien de las malas y luego la gente decidirá cual usa.
Loa lectores de fake news no tendrán problemas con eso por que seguirán buscando noticias que confirmen sus prejuicios.
Vamos que los trumpistas y demás personas de tendencia similar, que suponen el 97 % de los lectores de fake news, no van a tener problemas para seguir engañandose a si mismos.
De hecho rehuirán las buenas IAs como se espera de su postura anticientífica. Es mas, igual que contruyen un museo gigantesco sobre el creacionismo para combatir la teoría evolucionista son capaces de habilitar IAs «ad hoc» y alimentar el algoritmo con sus delirios.
#004
Gorki - 20 agosto 2023 - 21:35
Supongamos que una empresa ha seleccionado para entrenar una IA, los libros que se conservan en una biblioteca digital, por decir una, Internet Archive, que como es lógico, conserva libros de dominio público por estar publicados hace mas de 70 años, y libros con derechos de Copyright vigentes para su editor y puede su autor.
En mi opinión, como esos libros están públicamente expuestos para ser leídos digitalmente, y eso es lo que han hecho esas compañías, no han hecho nada por lo que haya que pagar. Ya lo habrán pagado. si ha lugar, la Biblioteca que los exhibe y si no es así, será a la Biblioteca a la que haya que pedir el pago de los derechos, por presentar para su lectura pública textos si haber pagado los derechos para ello..
En segundo lugar un reclamante, tendrá que demostrar que realmente su texto y no otro. es el que se utilizó para el entrenamiento de la IA y sinceramente veo muy difícil demostrar, que por ejemplo, se ha utilizado concretamente, el texto de «La sombra del viento» de Ruiz Zafón, para entrenar a chatGPT.
Si no lo pueden demostrar, difícilmente pueden pedir nada por los posibles derechos que tuviera el editor/autor.
Lo que me parece fuera de lugar, es pedir indemnización por el uso genérico de textos con derechos y luego repartírselo entre cuatro amiguetes, que es lo que ha hecho siempre la SGAE
#005
Gorki - 20 agosto 2023 - 23:31
Autorizo sin condiciones utilizar el contenido de mi blog, a cualquier empresa que lo haya utilizado o piense utilizarlo en el futuro para entrenar una AI
#006
lector - 21 agosto 2023 - 08:35
Tiene mucho sentido teniendo en cuenta que hay compañías lucrándose por los LLM. Y además cada vez hay más implementaciones opensource, así que la diferencia va a estar en quien se ha nutrido de mejores fuentes. ¿Por qué iba a ceder contendían el NY times a OpenAI cuando puede hacer su propio proyecto LLM y cobrar por ello? OpenAI ha ayudado a popularizar estos sistemas pero a largo plazo no estará aportando nada.
- Gorki - 21 agosto 2023 - 09:40
  ¿De qué va a poder NY entrenar una IA sólo con sus contenidos? Y si utiliza los de otros ¿Por que Open AI no va a poder hacer lo mismo?.
#008
lector - 21 agosto 2023 - 10:08
Exactamente. e.g Pueden hacer un LLM solo con sus contenidos + contenidos libres. Qué contenidos tiene OpenAi?
- Gorki - 21 agosto 2023 - 12:33
  Los que podían acceder legalmente. Si el NY estaba protegido por un paywall. o no habrán entrado, o habrán pagado la suscripción por visitarla, si no lo estaba, habrán hecho lo que estaba autorizado, leerla y aprenderla. O ¿no podías aprender lo que decía NY?
#010
ÁLVARO LÓPEZ VICENTE - 21 agosto 2023 - 19:04
Interesante artículo. Imagino que habrá que aplicar sentido común y nuevas leyes para la IA. ¿Se puede usar el material? Depende de la ley.