La verdadera dimensión de los datos para la IA

Resulta un verdadero desafío hacerse una idea de la verdadera dimensión de los datos con los que trabajan las compañías que trabajan en el desarrollo de algoritmos de inteligencia artificial generativa, y algunos artículos recientes pueden servir de guía para ello.

En The Verge, este artículo titulado «OpenAI transcribed over a million hours of YouTube videos to train GPT-4» ayuda a entender el nivel de desesperación que una compañía puede alcanzar a la hora de intentar obtener más y más colecciones de datos cuando ya prácticamente la totalidad de la internet considerada aprovechable ha sido incorporada de alguna manera a los datasets de entrenamiento: dedicarse a transcribir más de un millón de horas de vídeos de YouTube, una conducta, según la compañía, probablemente contraria a sus términos de servicio.

¿Dónde está el problema? Que en este momento, dadas las prisas por disponer de modelos bien entrenados y con cada vez más prestaciones, las compañías dedicadas a su desarrollo prefieren una aproximación del tipo «mejor pedir perdón que pedir permiso», es decir, optan por tomar todos los datos que puedan de todas las fuentes que puedan y llegar posteriormente a acuerdos económicos o a pagar multas cuando ya los modelos están razonablemente bien entrenados.

Ignorar políticas corporativas para asegurarse poder obtener datos de cualquier repositorio con posibilidades ha pasado a ser una prioridad tan elevada, que justifica prácticamente todo. Para entender esa alocada carrera, es muy interesante leer este artículo de The New York Times, «Four takeaways on the race to amass data for A.I.«, en el que una visualización de los datos empleados para entrenar a ChatGPT3 permite entender la magnitud de los datos obtenidos desde el año 2007 utilizando crawlers, que vienen a representar unos 410,000 millones de tokens, frente a los tan solo 3,000 millones de tokens que representa la totalidad de la Wikipedia. Frente a eso, el escaneado de libros supone un par de colecciones de 12,000 y de 55,000 millones de tokens sobre las que la compañía da muy pocos datos y que se supone son millones de libros publicados, o los 19,000 millones de tokens que se obtienen de tomar páginas de Reddit seleccionando aquellas que hayan recibido tres o más votos positivos, utilizados como un indicador de calidad.

Las dimensiones son tan absolutamente desmesuradas, que algunas compañías están comenzando a utilizar los denominados datos sintéticos, es decir, datos obtenidos de otros algoritmos, para alimentar con ellas los suyos. La cuestión de usar inteligencia artificial para entrenar la inteligencia artificial es compleja, porque puede dar lugar a errores que se consolidan a lo largo de los diferentes procesos de entrenamiento e inferencia, pero tiene un potencial teóricamente ilimitado y seguramente muy difícil de limitar, lo que lleva a que ejerza un atractivo muy interesante para muchas compañías.

Algoritmos que generan datos para entrenar a otros algoritmos: esto ya empieza a parecerse a los niveles de sueño anidados de la Inception de Christopher Nolan. Y por otro lado, nos permite poner en perspectiva los acuerdos a los que algunas compañías están llegando con, por ejemplo, periódicos con una larga andadura o cualquier cosa – absolutamente cualquiera – susceptible de generar datos. Si en la era del machine learning nos dedicábamos a trabajar con los datos para obtener repositorios razonablemente parsimoniosos, eliminar outliers injustificados y terminar generando modelos eficientes, ahora estamos más en una fase de «todo p’adentro» en la que lo único que importa es que el algoritmo resultante parezca tener una cierta calidad, sin entrar demasiado en detalles.

Una auténtica locura.

This article is also available in English on my Medium page, «AI companies are desperate for data and they’ll go to any length to find it«

#001
C3PO REAL - 7 abril 2024 - 14:56
Me has pillado en un bucle
¿Has escrito este artículo con ayuda de un gepeto?
Desde mi punto de vista esta pregunta carece de valor. ¿Por qué? Como lector me interesa el resultado final. Si has usado una IA, has fusilado otro texto, o cualquier otra marranada como la de OpenAI como usuario final puedo tener mis objeciones, pero a mi me importa que me lo ofrezcan gratis y que le den p.c. a los derechos de los demás.¿dónde está el problema? Soy egoista por naturaleza. Solo me importa mi propia satisfacción. Y esa película «Origen» la veré si la piratean en algún lado. Lo mismo que leer libros con derechos de autor, escuchar música. Al fin y al cabo soy antisistema con corbata. Que no se me note por mi puesto de trabajo, mi traje a medida, y mis discursos neoliberales.
> Joaquin Carvalho alias «el galego»

Después de este escrito, solo decir que en este caso que nos presenta Enrique no sé que pensar…. En lo del reconocimiento lo tenía claro. Pero después de releer este artículo voy a esperar a otras referencias. Ya que tengo «el corazón partio».
Entiendo a Google que su competencia les fusile sus contenidos, les jode, pero por otro lado ¿son contenidos de google o de sus autores? Aparte de los T&C del amigo google… a mi como usuario de esas IAs me interesan que sean mejores que los LLM alucinadas que tenemos hoy en día, pero también entiendo a google….
tablas.
Espero a comentaristas que me iluminen.

¡¡¡Metcalfe te imploro conocimiento !!!!
#002
menestro - 7 abril 2024 - 16:31
Vuelvo a aclarar, por si las dudas. Los datos se utilizan solo como entrenamiento de un algoritmo genérico y que no adquiere conocimientos. Ningún algoritmo actual hace un aprendizaje intelectivo de los contenidos que usa, ya que no funciona como la inteligencia o el aprendizaje natural.
Posteriormente, se le alimenta con otras fuentes de información, wikipedia, etc., desde donde obtiene las respuestas y conocimientos sobre una materia, y aplica el entrenamiento adquirido con esa serie de datos.
En concreto, las horas de Youtube han ido para crear un algoritmo de transcripción, es decir, para hacerlo más eficiente al traducir frases e información audiovisual. En eso consiste el entrenamiento.
No se sabe el final de todas la series, ni tiene ni idea del contenido de los videos.
Hay sistemas más sofisticados, pero este es el que está de moda para ofrecer productos de tipo generativo para las aplicaciones.
Qué si los contenidos tienen algún valor, o si aprende de sus textos, no, la calidad de los contenidos de entrenamiento no tiene ningún valor, sea el Quijote o Corín Tellado, le da exactamente igual, solo busca precisión en la tarea. El lenguaje, no el significado o su valor simbólico.
Watch an A.I. Learn to Write by Reading Nothing but «?kZhc,TK996»
Si crees otra cosa, tienes una percepción erronea de la AI generativa y los LLM.
What is the Whisper model?
–
Sí, sería buena idea, Corín Tellado es igual de generativa.
- C3PO REAL - 7 abril 2024 - 17:49
  Hay que decir que Whisper es un modelo original de OpenAI.Del enlace parecería de MS.
  https://openai.com/research/whisper
  Se puede bajar en abierto, y en los idiomas que lo he probado (en,de,es) tiene un desempeño excelente, siempre que no lo uses como traductor, sino como ASR
- menestro - 7 abril 2024 - 17:52
  Y, recuerdo de nuevo, el simple procesamiento digital de contenidos sujetos a derechos de autor, se usen en su forma original o transformada, sean públicos o protegidos, es una transgresión de copyright si no se paga una licencia.
  No hay «inspiración» gratuita ni de ningún tipo, diga lo que diga o la cara de pato que ponga, el Youtuber de turno.
  Yo sí sé lo que digo.
  –
  - Gorki - 7 abril 2024 - 23:21
    ¿Autoriza el dueño ser catalogado por las arañas de cualquiera, (Google, Bing,..)? .- Si, Pues entonces que no se queje si de esa catalogación se genera un producto derivado.
    ¿No es el catálogo de Google, un producto derivado del trabajo de sus arañas, (web crawler )? Alguien hasta ahora se ha quejado o ha pedido dinero para los poseedores de los derechos de autor?
    - menestro - 7 abril 2024 - 23:59
      Uff. Allá vamos, en beneficio de quien tenga la duda.
      Si Google generase nuevo contenido, sí tendría que pagar. Pero no lo hace, solo crea un índice de esos contenidos, por lo que no transforma ni produce ninguna obra derivada.
      Ni alimenta un mecanismo automatizado de reproducción, si entendemos así un algoritmo.
      Es igual que un callejero donde se señalan los museos o las bibliotecas. No hay un procesamiento o manipulado de esos datos, ni se visitan.
      Más aún, el derecho de cita, ampara la catalogación de fragmentos y lo snippets de esos contenidos.
      En España, como todos sabemos, somos muy espabilados a la hora de apoyar el codo y flexionar el palillo en la comisura, y la AMI trato de cobrarles por el derecho «universal» y reconocido internacionalmente de citar fragmentos de los periódicos o cualquier obra sujeta a derechos de autor, y como contravenía la normativa que se creó en el Convenio de Berna y era una vulneración de la legislación de nuestro propio país, Google echó el cierre 8 años.
      Ya.
      –
      - Gorki - 8 abril 2024 - 00:58
        «solo crea un índice de esos contenidos» pues entonces el índice es una obra derivada.
        ¿Que obra derivada crea las LMM que no sean índices ponderados de los unos 410,000 millones de tokens que indexa?
- f3r - 9 abril 2024 - 16:07
  Con 0 ánimos de ofender:
  «Los datos se utilizan solo como entrenamiento de un algoritmo genérico»
  No, es backpropagation (o sea un gradient descent estocástico)
  «Ningún algoritmo actual hace un aprendizaje intelectivo de los contenidos que usa, ya que no funciona como la inteligencia o el aprendizaje natural.»
  ¿Qué sabes tú cómo funciona la mente humana?
#009
Javier Benavides - 7 abril 2024 - 16:56
La caja negra dentro de la caja negra.
#010
Gorki - 7 abril 2024 - 17:03
Según mi criterio, (que acepto, pudiera no ser correcto), cualquier dato subido a Internet en paginas web no protegidas con la etiqueta «noindex», implícitamente autoriza ser catalogado por las arañas de cualquiera, (Google, Bing,.. y por qué no de OpenAI). Es deir leer el contenido de una forma metódica, para con el elaborar un producto derivad do en el caso de google el índice del buscador.
Tus normas dirán lo que quieras, pero si sacas algo en la vía publica, (por ejemplo el coche), no puedes impedir que te fotografíen y cataloguen, (trata de evitar que no te fotografía el vigilante de la ORA). Pues en Internet igual, máxime si además tienes a tu disposición la etiqueta «no index» y no la utilizas..
¿Acaso estaría prohibido que yo hiciera una araña que buscara en Youtube, todo los videos de un determinado tema, como es el futbol, o la aventura espacial?
#011
DANIEL - 7 abril 2024 - 17:36
Una pequeña vuelta de tuerca sobre este tema de la voracidad de los modelos LLM por conseguir más datos para su entrenamiento…
https://www.linkedin.com/pulse/un-secreto-es-revelado-el-verdadero-prop%C3%B3sito-de-los-en-almod%C3%B3var-h8pwe
#012
Matt - 7 abril 2024 - 20:53
¿Hay alguna compañia tecnologica que no practique el «mejor pedir perdón que pedir permiso»?
Las leyes son para los pobres.
- Javier - 7 abril 2024 - 20:57
  +1000
- Enrique Dans - 7 abril 2024 - 22:11
  Totalmente, así es. Lo has clavado.
  - C3PO - 8 abril 2024 - 19:58
    Esa frase es de la programadora y militar, Grace Hopper, que también acuño el término bug para un error en informática
    BUG
#016
Xaquín - 7 abril 2024 - 22:58
IA vs IH… està claro cuàl tiene más futuro.. partiendo de que la posta de salida de la primera está a años luz de la segunda… pero nos apasiona demasiado el onanismo fuertemente siliconado!!!