¿Con qué entrenamos a los algoritmos?

Mi columna en Invertia de esta semana se titula «Entrenando al algoritmo» (pdf), y es un intento de explicar los diferentes factores implicados en el complejo proceso de obtención de datos para el entrenamiento de algoritmos de machine learning.

En el primer momento, antes de que este tipo de cosas comenzaran a llamar la atención (antes de que, en enero de 2021, se lanzase en abierto por primera vez Dall·E, el primer algoritmo generativo de imágenes), las compañías dedicadas a su desarrollo hacían, básicamente, lo que querían.

Amparados por el principio jurídico que afirma que el web scraping es legal, es decir, que cualquiera puede entrar en páginas públicamente accesibles y copiar todo su contenido, se hicieron con enormes colecciones de imágenes etiquetadas y textos que consideraban razonablemente correctos, y alimentaron con ello las bases de datos que necesitaban para entrenar sus productos. Los precedentes del tema eran confusos: LinkedIn había perdido varios casos en los que trataba de impedir que otras compañías hiciesen web scraping de los datos de su red, pero Facebook lo había ganado contra Power Ventures, y Clearview había abusado del web scraping hasta tal punto, que nadie dudaba que debía ser condenada. La idea, aunque sometida a la relatividad de la interpretación de los jueces, parecía clara: el web scraping era una herramienta, no un crimen, y como en el caso de toda herramienta, existían usos razonables y no razonables.

Así, compañías como OpenAI y otras entraron a saco en bases de datos como las de Getty Images, y se hicieron con millones de imágenes etiquetadas. Todas ellas tenían una marca de agua que decía «Getty Images» que solo se podía eliminar si se pagaba por el uso de la foto, pero daba igual: la imagen era suficientemente visible, y sus etiquetas permitían que el algoritmo la interpretase.

La cuestión comenzó a llamar la atención cuando los usuarios de Dall·E y de otros algoritmos, como Stable Diffusion o Midjourney, empezaron a hacer diabluras pidiendo imágenes «en el estilo de». La cosa parecía magia: si tu prompt pedía el estilo de un autor determinado, el algoritmo acudía a las imágenes que tuviese de ese autor, y el resultado era en muchos casos tan bueno, que parecía realmente hecho por el artista. Además, algunos algoritmos llegaban en muchos casos al punto de reproducir las marcas de agua de Getty Images: el algoritmo había sido entrenado con tantas imágenes que la llevaban, que interpretaba que esa marca de agua era un elemento que debía aparecer en sus creaciones. La cosa se agravó con los textos: los algoritmos más modernos, como Claude, pueden ingerir libros enteros en segundos, lo que permite que pasen inmediatamente a escribir como lo haría el autor de los mismos, lo que potencialmente irrita a unos autores que quieren, como mínimo, que se les pida permiso, y muy posiblemente, compensaciones económicas.

Para terminar de complicar el tema, surgió una cuestión que siempre lo complica todo: los derechos de autor. En principio, la doctrina dice que solo las creaciones humanas son susceptibles de estar protegidas por los derechos de autor y de devengar los correspondientes derechos. El famoso caso del selfie del mono, en el que el juez decretó que no había lugar a protección por derechos de autor dado que el autor de la foto era el propio mono, parecía dejar claras las cosas, y era susceptible de ser extendido a los algoritmos: un algoritmo no es humano, y por tanto, sus creaciones deben estar exentas de derechos de autor.

Sin embargo, la cosa tampoco es tan sencilla: después de todo, interpretar al algoritmo como creador de una imagen es muy discutible, porque podríamos también interpretar que es la herramienta que un autor utiliza para obtenerla. En realidad, si una persona sin experiencia trata de obtener mediante Dall·E, Midjourney o Stable Diffusion una imagen como muchas de las que se ven en la web, lo habitual es que lo que obtenga sea un resultado con una calidad muy inferior: manejar el algoritmo, escribir un prompt adecuado y gestionar todas las interpretaciones que el algoritmo hace de él no es una tarea en absoluto sencilla. Visto así, del mismo modo que no puede interpretarse que el autor de este artículo es el ordenador en el que lo he escrito, tampoco podría interpretarse que el autor de un dibujo creado por un algoritmo es el algoritmo, sino la persona que estaba manejándolo.

La cuestión es compleja, pero dista mucho de ser una mera curiosidad jurídica: está en la base de lo que podremos hacer o no hacer con los algoritmos, y sobre todo, de la industria que se genere a su alrededor. Si las únicas compañías capaces de entrenar algoritmos son aquellas que puedan cerrar acuerdos con grandes repositorios de imágenes o de noticias que suplementen al ya famoso LAION, estaremos pronto ante un escenario de concentración similar al de las redes sociales, con muy pocos actores dominando el panorama y ejerciendo todo tipo de abusos. Si, por el contrario, hacemos fácil que las creaciones puedan ser utilizadas para el entrenamiento de algoritmos, estaremos abriendo la puerta a que cualquiera pueda entrenarlos y, potencialmente, a un entorno menos concentrado, más diverso… pero seguramente, tendremos problemas con los propietarios de esas imágenes y textos, o con las agencias que los representan.

En el medio, la solución de que cada uno entrene sus algoritmos con lo que buenamente pueda: cada compañía, con los datos que generan su actividad y sus transacciones. Limitados, verticales, pero potencialmente muy buenos, y sin comprometer la seguridad de esos datos. Las compañías que sepan convertir su actividad en una manguera que genera datos constantemente, podrán optar a entrenar sus propios algoritmos y a depender menos de las big tech de turno. Pero para hacer algo, tienes que saber que quieres hacerlo, las alternativas y las consecuencias de no hacerlo. Veremos si lo entendemos a tiempo, o si nos vemos abocado al dominio implacable de unas pocas big tech.

This post is also available in English on my Medium page, «What are we going to use to train algorithms with?»

#001
Benji - 19 julio 2023 - 11:53
Parece inevitable. Los primeros que llegan a algo se aprovechan del «salvaje oeste» reinante, ya que nada está regulado, y los que vienen detrás se encuentran con muros, barreras, pagos, denuncias y complicaciones que la primera generación de AI no tuvo que sufrir.
Ahora bien, en mi opinión personal creo que hay suficientes repositorios Open Source para hacer una buena AI sin infringir nada. WikiPedia y Project Guttemberg se me vienen a la mente, ahí hay ya una buena base para enseñar a hablar y para tener al día todo.
La WikiPedia incluso ofrece una descarga offline para no cargar sus servidores y que tú puedas tener tu propia copia para hacer lo que quieras.
#002
S.BUENDIA - 19 julio 2023 - 12:24
«Un mono pulsando teclas al azar sobre un teclado durante un periodo de tiempo infinito casi seguramente podrá escribir finalmente cualquier texto dado»
Si ese mono utiliza un editor de texto el mismo Notepad, tendrá una letra más legible que cualquier persona médicos incluidos
Si a ese mono le ayudamos con un corrector, puede tener mejor ortografía que cualquier universitario
etc etc
Pero ninguno será creativo, serán obras aleatorias con la ayuda de un LLM. Y cuando creen esas obras, alguna como la generada por el mono, será excelente, pero habrá que leerlas TODAS para llegar a esa conclusión, y como no hay tiempo infinito, es más práctico confiar en leer una novela de Marcial Lafuente Estefanía o de Corín Tellado. Y para los iniciados en el patxarán de Charles Bukowski.
#003
Gorki - 19 julio 2023 - 13:21
Es obra del nefando META, pero Carlos Santana lo considera un BOMBAZO, la salida de LLaMA v2, Pues porque posibilita, (según Carlos Santana), que cualquier persona y empresa pueda construir con este modelo lo que quiera. por lo que pronostica que vamos a tener LLMs y chatbots por todos lados.
https://twitter.com/DotCSV/status/1681335085344206849?s=20
La verdad es que yo no me enterado que es lo que realmente supone LLaMA v2, pero considero a Carlos Santana una de las personas mejor enteradas de cómo va la IA, su canal en Youtube DOT CSV tiene videos muy interesantes sobre la IA. Pero eso si, para llegar a entenderlos, hay que ver el mismo video varias veces,. (yo al menos),
- Lua - 19 julio 2023 - 13:47
  Pues te deberia gustar… bienvenido lo gratis… XDDD
  Microsoft acaba de anunciar lo que costará usar inteligencia artificial en Office. Es mucho más de lo esperado
  - Gorki - 19 julio 2023 - 13:59
    Pues me alegraré mucho, me encanta lo gratis.
    Pero entiendo aun menos lo que cuenta Carlos Santana, que la presentación de LLaMA v2 se hizo en un evento de Microsoft. No es normal que una empresa facilite la vida a quienes piensa regalar, lo que ellos tratan de vender.
#006
Gorki - 19 julio 2023 - 13:51
Si un autor creer que una parte importante de la obra de ChatGPT, ( no unos cuantos pixel), es copia de una obra suya, o bien opina que una obra de ChatGPT es obra derivada de una suya, que vaya a los tribunales y lo denuncie, pues esta en su derecho, pero tendrá que demostrarlo.
Pero si de lo que se queja, es que OpenAI ha entrenado su AI en su obra, no se puede considerarlo un delito, (a mi juicio), porque subió su obra a Internet para que se visualizara libremente y además pudiendo poner en la cabecera de la página HTML, «noindex», no lo puso para que precisamente las «arañas digitales» entraran en su web, la estudiaran y catalogaran.
Por tanto si lo puede hacer legalmente el buscador Google y otros muchos buscadores no veo a qué se van a agarrar para prohibírselo a la araña de OpenAI que ha hecho exactamente lo mismo.
- S.Buendia - 19 julio 2023 - 14:06
  Acabo de entrar al link de Carlos, interesante también seguir a @ylecun
  Una cosa que le falta a twitter y tiene mastodon: El botón de traducir… cuando entras a TT de otras lenguas…
  Elon: WAKE UP!
  - Enrique Dans - 19 julio 2023 - 14:23
    Twitter también lo tiene. De hecho, fue la primera en tenerlo…
    - S.Buendia - 19 julio 2023 - 15:17
      De inglés a castellano? No lo tiene
      De otra_lengua a inglés? Si lo tiene
      De otra_lengua a castellano? No lo tiene
      - Gorki - 19 julio 2023 - 15:51
        De ingles a castellano, al menos mi versión de Twitter, si lo tiene, Cuando me aparece un twit en inglés, debajo del twit aparece una línea que dice «Traducir Tweet»
      - Lua - 19 julio 2023 - 16:42
        Se traduce al idioma en que tengas configurado TW. Si lo tienes en ingles lo traduce todo a ingles. Ves a las opciones (y no se donde), podras ponerlo en castellano. Entonces te traducira a español.
      - S.Buendia - 19 julio 2023 - 18:07
        Va a ser eso, no me había fijado en los tweets en español pone «translate tweet»
        Y entrando a mastodon todo igual si traduce al español,como lengua destino como debe ser.
        Otra disfunción de TT que no se fija en vez en la lengua del navegador de destino. Pero para pedirle ahora que arreglen algo, teniendo la casa como la tienen.
        Gracias
      - S.Buendia - 19 julio 2023 - 18:15
        Actualizo, si hay una opción de lengua a español.
        Culpa mía!
        Gracias por la ayuda
#014
GOUDA MAN - 19 julio 2023 - 14:44
Sobre Meta un mensaje leido en una RRSS
«So #Meta has released it’s new AI model. They claim is ethical and #opensource. Well, i don’t think this is going to be a huge surprise for nobody, but contrary to the claims, it is not open source, is not ethical (They say, literally, that is ethical because it does not use meta users data… But it steal it from other places) and the licensing is just so chaotic that i have serious doubts it would hold in court. Read the paper, if you are willing to be treated like an idiot.»
enlace
- Gorki - 19 julio 2023 - 15:59
  Es la, (respetable), opinión de un señor que dice llamarse «Yo Soy Freeman». De momento, y salvo que se me aclare mas quien es el autor de esta opinión, me fío mas de la opinión de Carlos Santana que concretamente dice:
  El problema del anterior modelo es que su licencia no permitía su uso comercial, no permitiendo sacarle provecho económico. Ahora la cosa cambia *
  El pre-entrenamiento de un LLM es la fase más costosa para conseguir IAs como ChatGPT. Y ahora Meta se lo acaba de ahorrar a la comunidad.
  - gouda man - 19 julio 2023 - 20:36
    Sr. Anónimo Gorki
    No ha leído o no ha entendido las condiciones comerciales de adhesión, y no le aplico la falacia de autoridad, como Vd hace con Freeman. Solamente se otorga una licencia limitada.
    PERO NO, no es open source, p.ej. si supera un uso, se debe pedir una licencia comercial, y se puede otorgar esa licencia comercial a criterio de Meta, o denegartela
    Meta puede rescindir el Acuerdo si usted incumple cualquier término o condición( con su criterio) ya que
    Si inicia un litigio u otro procedimiento alegando cualquier aspecto con Llama respecto a lo que Vd. creaa que tiene un derecho, cualquier licencia que se le haya otorgado terminará a partir de la fecha en que se presente dicha reclamación.
    Y deberá borrar todo.
    ¿Qué compañía va a desarrollar con una licencia comercial con esas premisas?
    Luego ya Carlos Santana que opine lo que quiera en su espacio.
    - Gorki - 20 julio 2023 - 02:15
      Mientras no se demuestre lo contrario, sigo dando mucha mas autoridad a lo que cuenta Carlos Santa, a que a lo que cuenta un tal
      Yo Soy Freeman.
      Carlos Santana es una persona especializada en IA desde hace al menos tres años, cundo nadie hablaba de esto.
      - Lua - 20 julio 2023 - 13:11
        Igual esto te aclara las ideas…
        LlaMa 2, el ChatGPT de Meta, se presenta como ‘open source’, pero es falso: no cumple las normas para serlo
      - Enrique Dans - 20 julio 2023 - 13:34
        Mentir está en su naturaleza, absolutamente nada bueno puede venir de esa compañía…
      - Lua - 20 julio 2023 - 13:39
        Bueno bueno… que a OpenAi tambien le crecen los enanos… XDD
        «¿Queréis que lancemos GPT-6 como open source? ¿Sí? Pues no va a pasar». El CEO de OpenAI descarta la idea (¿pero no del todo?)
      - GOUDA MAN - 20 julio 2023 - 14:30
        Las condiciones de META son «crystal clear» como una marca de agua muy famosa aquí.
        No todo el mundo entiende el lenguaje comercial. De ahí mi resumen en lenguaje llano para todo el mundo. Si han engañado a Carlos, Gorki,… que vamos a esperar de los demás
        Gracias Enrique!
      - Gorki - 20 julio 2023 - 17:29
        No todos tiene los mismos prejuicios sobre META
        
        Carga rápida | Mark Zuckerberg está regalando su última inteligencia artificial y no es una chaladura Por Michael McLoughlin
        Si de algo hemos hablado este curso, ha sido de inteligencia artificial generativa. La historia es de sobra conocida. Aparece ChatGPT, nos volvemos locos, Microsoft coge 10.000 millones y se los inyecta en vena a OpenAI para usar su tecnología y empuja a Google a una carrera disparatada en la que prácticamente todos quieren participar.
        En medio de todo este ruido, había una empresa desahuciada: Facebook. Distraída en el metaverso, muchos dieron por supuesto que había perdido el tren correcto y que le costaría mucho alcanzar a sus rivales. Este martes presentó LlaMA2, un nuevo modelo de lenguaje para entrenar inteligencias artificiales. Y lo está regalando. No, no es ninguna chaladura. Es un movimiento mucho más inteligente de lo que parece. ¿Qué novedades incluye?
        Ahora se puede explotar. La anterior versión de LlaMA era de acceso libre para investigadores, pero no se podía utilizar comercialmente. Ahora eso cambia y abre un abanico de posibilidades.
        Dos socios de altura. Meta ha alcanzado acuerdos con Microsoft y Qualcomm. El primero ofrecerá soporte en Azure y el segundo facilitará que el modelo se pueda ejecutar en dispositivos móviles.
        LlaMA 2, que trabaja en 27 idiomas y que cuenta con 76.000 millones de parámetros, ofrece, según los registros publicados, un rendimiento similar a GPT 3.5. No hay que olvidar que OpenAI ya ha puesto en circulación GPT 4, que supone un avance notable frente a esa versión. Entonces, ¿cómo va a dar la vuelta a la tortilla?
        Aquí es donde cobra sentido la estrategia open source de LlaMA 2. Cuando se entrena un modelo de lenguaje que luego da vida a inteligencias artificiales generativas la fase más costosa es la inicial, el pre-entrenamiento.
        Por eso, hasta hace poco, solo estaba al alcance de multinacionales que pudiesen permitirse el dineral que cuestan los equipos y el talento para lograrlo. Pero ahora Meta ahorra eso a la comunidad de desarrolladores independientes, lo que va a tener un efecto similar a la hormona del crecimiento en iniciativas de terceros. Y lo hemos visto en otras ocasiones. ¿Qué ocurrió?
        Error… o filtración. Hace unos meses se filtró la primera versión de LlaMA, algo que sirvió para potenciar iniciativas indies como Alpaca o Vicuna a niveles impensables. Incluso un memorando de un ingeniero de Google alertó de cómo podían perder esta partida.
        El antecedente React. Facebook ya hizo algo parecido con React, una de las librerías más populares para el desarrollo Javascript tanto para apps como para la web. La compañía lo distribuyó en abierto y con ello consiguió una tremenda popularidad.
        En resumen, se podría decir que Meta ha inventado el martillo y los clavos y ahora se los está dando a terceros para que construyan cosas. ¿Y qué gana Mark Zuckerberg? Pues básicamente que tiene a miles de personas trabajando indirectamente para él y puede alimentar su modelo (y por tanto su IA) con las funciones y desarrollos que consigan crear otros a raíz de LLaMA2 de manera mucho más rápida y económica.
#023
Jordito - 19 julio 2023 - 16:13
@edans, la imagen del post la has generado o la has obtenido de algún repo?
- Enrique Dans - 19 julio 2023 - 16:23
  Es de Alexandra Koch, la tomé de Pixabay, el crédito está en las propiedades como texto alternativo…
  - Lua - 20 julio 2023 - 13:45
    Una recomendacion de «buena practica» o netiqueta (que la mayoria mayoritaria, no usa) es poner el credito en el pie de foto (ademas del ALT que es mas opcional)
    Ojo, que no te estoy criticando… no saques el lanzallamas…. XDDD
    - Enrique Dans - 20 julio 2023 - 14:33
      Lo hago todos los días en mi página en inglés, aquí es algo que tendrá que esperar al próximo rediseño…
      - Lua - 21 julio 2023 - 13:57
        Una pregunta (que no has de contestar…)
        Cuando haces un articulo, te curras tu la pagina entera, o le das la imagen y el texto a un tercero para que lo haga?
#028
Gorki - 19 julio 2023 - 16:25
Me entero que Pedro Sanchez ha desvelado en una entrevista que la Biblioteca Nacional, graba y conserva una buena parte de la Internet en español Copio:
La recolección de páginas web se realiza con robots rastreadores que recorren las URL seleccionadas previamente y guardan todo lo que encuentran enlazado, con la frecuencia, profundidad y tamaño que se determine.
¿Han pedido a los autores permiso para guardar un copia de su obra digital?.- ¿De veras alguien piensa que tengan que pedir permiso a los autores para esto?.
#029
Lua - 19 julio 2023 - 17:38
«Aquí hay algunas pruebas contundentes iniciales de que GPT-4 en realidad se está volviendo menos capaz (y GPT-3.5 se está volviendo más) desde su lanzamiento. Además, por qué es difícil construir sobre la IA, cuando las habilidades del modelo cambian silenciosamente…»
¡Entonces las sospechas sobre la simplificación de GPT-4 pueden ser correctas!
Aqui el PDF:
How Is ChatGPT’s Behavior Changing over Time?
#030
Angel - 19 julio 2023 - 17:58
NotebookLM es una IA que se entrena solo con los datos que le demos. A partir de ello, puede hacer resúmenes, indices, contestar preguntas y “crear ideas”. Es el sueño del estudiante: “le doy la data a la computadora y lo estudia por mi”
El problema es que es de Google…. Por ahora es un experimento en beta cerrado, solo para USA: https://notebooklm.google.com/
#031
Juan T - 19 julio 2023 - 19:54
EDans, tengo que reconocer que en una tesitura como la tuya, en los dias en los que tienes que escribir el articulo para Invertia y hacer otra larga versión para el blog que tenga que ser lo suficientemente diferente para que no sea un plagio, ademas de dar las clases correspondientes, me costaría horrores no pedirle esa versión a la IA y retocarla un poco.
Los dias no tienen 40 horas.
- Enrique Dans - 19 julio 2023 - 20:59
  Naaah, El Español nunca me ha puesto ningún problema con eso, entienden que mi meta-columna es una excusa para poder meter mis enlaces, y no les preocupa que la publique, ni a mí me cuesta demasiado escribir algo que ya documenté y planteé en día anterior. El miércoles, de hecho, es mi día más tranquilo, el día malo es el martes, que tengo que entregar la columna de Invertia y, además, escribir de algo completamente diferente para mi página… hay días que a fuerza de exprimir el cerebro, parece que duele!!
  Pero no, no me encontraría cómodo pidiéndole cosas a ChatGPT si no voy a poder decir que las he hecho con ChatGPT. La transparencia es un hábito que no es fácil quitarse!!
#033
Xaquín - 20 julio 2023 - 11:18
Ahora que hay gente superenchabotada (yo sigo siendo virgen, pero con ansias de «mojar» lo más pronto posible), me gustaría decir que, la interacción con algoritmos (de mediana tecnología) se lleva haciendo desde que las redes sociales usan uno, para interactuar contigo. Y, si la gente no se quiere dar cuenta, allá ella. Pero, como pasa con los filtros mentales propios, que requieren un montaje algo sofisticado, domesticamos al algoritmo lo mejor que podemos, para que nos trate medianamente bien. O lo dejamos a su aire, para que haga de nuestra mente un pandero.
No se necesita una IA para aprender a interactuar con «algo» inteligente.
Todo profe, que realmente se tome su profesión en serio, sabe que todos los septiembres tiene que interactuar con inteligencias humanas, mejor o peor dotadas, que vienen de «andar por la selva urbana o rural, durante un verano». O peor, vienen de estar un curso completo con un profe (global o de área), que estaba mucho mejor en casa haciendo punto (y me estoy refiriendo a machos!).
O incluso viene, esa IH medianamente dotada, de una Primaria/Secundaria, con un profesorado capaz de conseguir que la IH (racional y emocional), de ese alumnado, estuviera hibernando lo más posible, hasta cansarla de todo y convertir a un alumno en una máquina de «no pensar» (por si misma). La típica caja de resonancia, que ni desprende el eco de lo que le dicen, ya que está «en otra puñetera onda».
En fin, que las interacciones con las IH resultan mucho más difíciles y penosas (pueden deprimir mucho!), que cualquier IA, que quiera presumir de «ser mejor que tú».
Y lo mismo que en el sistema educativo/domesticador humano, se te ofrecerá (ante la IA), la oportunidad de escoger la función educadora o la domesticadora.
Digan lo que digan los «enterados» del tema algorítmico, la cosa es así de simple. Muy parecida al enorme problema, que se les plantea a los profes de mate, cuando quieren que su alumnado interaccione, con algoritmos tan simples como es el de la suma o el de la resta.
Igual que hay gente que no sabe lo que es un ábaco, también la hay que NPI de lo que puede ser un algoritmo (en esencia). Sea de mediana o alta complejidad funcional.
#034
Axel - 22 julio 2023 - 05:37
Tienen telegram?