Noticias para entrenar algoritmos

IMAGE: A robot seating at a table and reading documents (Thank You Fantasy Pictures - Pixabay)

Tengo la impresión de que pronto veremos cada vez más noticias como esta: Associated Press (AP) ha firmado una alianza con los creadores de algoritmos como Dall·E o ChatGPT, OpenAI, que permitirá que la agencia de noticias cooperativa norteamericana utilice la tecnología y los productos de OpenAI, a cambio de que los algoritmos de OpenAI puedan, pagando, ser entrenados con el gigantesco archivo de textos de noticias generado por la agencia desde el año 1985.

AP se convirtió, en 2014, en la primera agencia que empezó, mediante una alianza con la compañía Automated Insights, a utilizar algoritmos para generar algunas de sus noticias, como resúmenes de resultados financieros o crónicas deportivas, lo que le permitió extender su cobertura de manera muy significativa. Agencias como Bloomberg actualmente utilizan este tipo de tecnologías aproximadamente en un tercio de las noticias que producen. En el caso de AP, que sirve noticias diariamente en inglés, alemán, neerlandés, francés y español, disponer simplemente de tecnologías eficientes de traducción capaces de mantener un estilo determinado puede suponer ya de por sí un beneficio importante, y dejar sin trabajo a muchas personas que hasta ahora se encargaban de llevar a cabo esas traducciones.

Para OpenAI, las noticias de AP suponen una buena manera de disponer de textos susceptibles de ser utilizados con ciertas garantías para el entrenamiento de sus algoritmos generativos, algo que podría complicarse si algunas de las demandas que han recibido compañías creadoras de algoritmos generativos, como las de algunos artistas, escritores, comediantes o la del repositorio de imágenes Getty Images llegan a prosperar. En un escenario en el que resulte cada vez más complejo obtener datos para entrenar algoritmos, acuerdos como este pueden llegar a tener un valor importante, dado que reutilizar constantemente los mismos repositorios posee, obviamente, muchas limitaciones.

El momento es importante: mientras las compañías tecnológicas creadoras de este tipo de algoritmos intentan convencer a más propietarios de información con la que entrenarlos, muchas compañías en todo tipo de industrias están planteándose si deben trabajar para utilizar sus propios datos para entrenar sus propios algoritmos, o si deben esperar para utilizar los creados por esas compañías tecnológicas. El escenario resultante de esas decisiones dará forma, en muchos sentidos, a la próxima etapa de la tecnología, que podría volver a estar dominada por unas pocas compañías o, por contra, convertirse en un modelo más democratizado y multifacético, con aportes más variados, o con la posibilidad de alimentar el desarrollo de herramientas de código abierto.

Hasta ahora, la práctica totalidad de las compañías desarrolladoras de este tipo de herramientas se habían limitado a obtener información tomándola directamente de la web mediante scraping, algo cuya legalidad había sido cuestionada por algunos de los propietarios de esa información. El web scraping es, sin duda, una herramienta polémica: si bien muchos defienden la legalidad de capturar información que ha sido hecha pública en la web, otros casos han sido calificados como abusivos. El acuerdo firmado entre AP y OpenAI marca un precedente importante en este sentido, y muy posiblemente, un cambio en el signo de la evolución de esta estratégica cuestión.


This post is also available in English on my Medium page, «The search is on for reliable data to train generative algorithms»

24 comentarios

  • #001
    CarpeDiem_pm - 14 julio 2023 - 10:32

    Buenos días a tod@s.

    El disponer de datos de buena calidad es básico para el aprendizaje automático.
    Mi opinión es que tener un buen conjunto de datos puede llegar a convertirse en una barrera de entrada muy importante para posibles competidores.

    Si las demandas que comenta Enrique prosperan, los datos disponibles serán más escasos. Y las alianzas como las de AP y OpenAI serán fundamentales.

    • f3r - 14 julio 2023 - 12:32

      No solo eso. Imagínate que entrenan una AI con las noticias de ABC: correspondería a una descripción histórica de un mundo paralelo.

      • Ajelula Peres - 14 julio 2023 - 15:11

        La AI acabaría suicidada, overflow,…. :-D

      • Gorki - 14 julio 2023 - 16:55

        Pues veras lo que ocurre si para entrenar toman el Marca. Todo lo vera como si fuera una competición.

        • Michel Henric-Coll - 17 julio 2023 - 11:31

          Pues sí. Si entrenan a los llamados algoritmos (de)generativos con la prensa, ya vamos bien… aunque a que ver hacia dónde.

          Sugiero que después pasen un acuerdo con Scholastic , la editorial que publica los libros de Harry Potter.

          El Colegio Hogwarts es una escuela de valores muy recomendable.

      • Ana - 14 julio 2023 - 18:25

        “Mejor morir de pie que vivir de rodillas”

        Cita atribuida a Dolores Ibárruri, “la Pasionaria” y a Ernesto “Che” Guevara. Depende, de qué depende…

        Gracias al ABC publicado en el año 1924, se descubre que la cita es de Fernando Valera, escritor y Político Republicano Español.

        El Mundo paralelo; “la Pasionaria” / “Che Guevara”

        • Dolores - 14 julio 2023 - 23:32

          En la hemeroteca de ABC no aparece esa cita,

          Sin embargo se encuentra por ejemplo en la hemeroteca nacional

          «¡Hay que ganar la guerra, es el grito que arranca de
          la entraña popular! ¡Hay que aplastar para siempre al fascismo! ¡Nuestra decisión y nuestra heroísmo no pueden tener limites! ¡Es preferible, como ha dicho nuestra «Pasionaria», morir en pie a vivir de rodillas! ¡Y un pueblo que está dispuesto a morir antes que ser esclavo vivirá y vencerá siempre!
          ¡Todos contra ellos!»

          El liberal (Marid 22/9/1936)

          • Ana - 15 julio 2023 - 11:08

            “Mejor morir de pie que vivir de rodillas” Fernando Valera, escritor y político republicano español. ABC de 1924. Mitín en Valencia……

            Ejemplo de cómo está escaneada la hemeroteca DIGITAL del ABC;

            «La escultura e s p a ñ o l a contemporánea ofrece algunos aforJAKKON D E TÉCNICA D E CÜEKDA SECA, ejemplos t u ñ a d o s de P O R LA CERÁMICA ARTÍSTICA orientación»

          • DOLORES - 15 julio 2023 - 12:12

            Las citas de Hemeroteca se dan dando como mínimo

            * Nombre del periódico, y en ABC si es Madrid o Sevilla
            * Fecha completa
            * Página

            O un link como este

            PDF

            No, es verdad que no aparece !!

            https://www.abc.es/archivo/buscador/?titulo=Fernando%20Varela&tipo=noticias&fechaDesde=1924-1-1&fechaHasta=1925-1-1

            Lo sentimos, pero tu búsqueda no obtuvo ningún resultado.

            La frase de Dolores es fácilmente encontrable

            Esa cita no es que se atribuya a Dolores, es que la dijo al menos en 1936, como consta en este link.

            La frase vivir de rodillas, es una alegoría a la postura que en la misa los fieles se postraban, y era muy utilizada en el ambiente anticlerical. También se puede leer en alguna web que se le atribuye a Emiliano Zapata.

            Desconocía la atribución a Fernando Varela, y no la he podido comprobar, dado que en la web de ABC no se encuentra este nombre y en el de la hemeroteca digital de BNE, desgraciadamente los periódicos de ABC no son públicos

            En todo caso si una IA analizara estos fondos, lo primero que tendría que hacer es pasar un OCR en condiciones, y cuando le preguntara por las fuentes citarlas, alimentar con datos una IA no es sesgar. Y las empresas que trabajan en IA lo saben y lo tienen en cuenta.

            En todo caso negar que esa frase la pronunció en esos años es un revisionismo que no ha lugar

            Lo de Fernando Varela, se agradece la cita aunque no sea comprobable.

            Y el Che la pudo haber dicho, no me extrañaría, que la utilizara en algún momento

            Al final las frases son como las canciones, hay un autor, y cantantes que las hacen famosas

          • ana - 15 julio 2023 - 12:52

            No era mi intención entrar en polémica. Me da igual el autor de la cita.

            Es Fernando VaLera, no VaRela.

            Sobre; «En todo caso si una IA analizara estos fondos, lo primero que tendría que hacer es pasar un OCR en condiciones»

            Lo veo imposible, tendría que volver a escanear todos los periódicos ORIGINALES y no creo que el ABC o cualquier otro lo permita.

            Lo mismo pasa con el Boletín Oficial de Defensa. Si quieres saber el historial completo de cualquier militar, ni OCR ni gaitas, a leer uno por uno.

          • Dolores - 15 julio 2023 - 19:00

            Desde que el gobierno de España declara a toda la cúpula fascista en Rebelión hasta que en 1976 se aprueba la reforma democrática por Referéndum y después se vota la Constitución Española no podemos afirmar que haya carrera militar honrosa en este país. Lo que no pudo hacer la democracia lo ha hecho la biología. Una verdadera pena, salvo honrosas excepciones como la UMD

            Que no se pueda completar el historial militar pues creo que es lo que menos importa. Si la cantidad de militares leales a la República que por ser leales fueron represaliados por las fuerzas rebeldes de ocupación fascistas y no leales a la constitucion y a su gobierno.

          • Ana - 16 julio 2023 - 09:03

            Ejemplo de «militares leales a la República que por ser leales fueron represaliados por las fuerzas rebeldes de ocupación fascistas y no leales a la constitucion y a su gobierno» publicado por el Boletín Oficial de Marina, Madrid 1º de Septiembre de 1900. NUM. 98

            «Excmo. Sr : S. M. el Rey (q. D. g.) y en su nombre la Reina Regente del Reino, ha tenido á bien desestimar la instancia de varios pescadores de San Vicente de la Barquera, solicitando autorización para pescar langosta durante todo el mes de Agosto, en vista de que, de accederse á lo que se pide se perjudicaría gravemente á la cria y reproducción de dicho crustáceo.

            De Real orden comunicada por el Sr. Ministro de Marina, lo digo á V. E. para su conocimiento, efectos consiguientes y como resultado de su carta número 2.320 con que cursó la instancia de referencia.
            Dios guarde á V. E. muchos años—Madrid 28 de Agosto de 1900.»

            Desde 1900 la cúpula fascista en rebelión…

            No podemos afirmar que haya pesca honrosa en este país…

            Lo que no pudo hacer la democracia lo ha hecho la langosta…

            Que no se pueda completar el historial militar de un crustáceo pues creo que es lo que menos importa…

            Si mencionamos a Fernando Valera, debatimos sobre Fernando Varela…

            Si ALGUIEN quiere conocer el historial de un militar desde 1976 o antes de 1936… es lo que menos importa…

            Lo que importa es el Bucle infinito, que en programación es un error que consiste en realizar un ciclo que se repite de forma indefinida ya que su condición para finalizar nunca se cumple.

  • #013
    Benji - 14 julio 2023 - 13:35

    Claro, pero hay que fiarse de la fuente. Si aquí sacas las noticias de Publico y OKDiario, la IA se volverá un ocho.

    Es más, por ejemplo de la guerra civil española o la II guerra mundial, según que periódico leyese la IA, pensarías una u otra cosa a la hora de generar opinión o texto.

    No sé, si es que al final es difícil no transmitir nuestros sesgos culturales y personales a todo. Igual necesitamos un pseudolenguaje intermedio para que la máquina pueda sacar más fácilmente los estereotipos. Imagínate las noticias sobre clanes gitanos en 1985 y 2023, son dos mundos, por poner un ejemplo, o las procedencias de las inmigraciones entre ambas fechas, que han cambiado significativamente.

    No le veo yo mucha solución

    • Dorado Comandante - 14 julio 2023 - 15:34

      Es fácil, las noticias de 1985 y años posteriores serian más racistas y las de 2023 y años posteriores menos realistas, evitando dar determinados hechos para encajar en el discurso dominante actual, que teme llamar a muchas cosas por su nombre por la corrección política.

      Quizá, habría que empezar a pensar que, vete tú a saber, lo de usar IA hasta para ir al retrete no es buena idea y habría que dejarla solo para lo que sea realmente necesario. Porque esto de la «IA para todo» empieza a sonar a los demás cadáveres que el marketing y los vendehumos han ido dejando en el camino:

      Realidad virtual para todo
      Realidad aumentada para todo
      Grafeno para todo
      Big Data para todo
      Blockchain para todo
      Tokens y NFT para todo
      Metaverso para todo

      Etc…

    • Enrique Dans - 14 julio 2023 - 22:05

      Associated Press (AP) es una una cooperativa propiedad de sus periódicos y estaciones de radio y televisión contribuyentes en los Estados Unidos, que tienen todo tipo de líneas editoriales y que tanto aportan noticias como utilizan el material escrito por la misma. Las noticias de AP son utilizadas en 1,700 periódicos y 5,000 estaciones de televisión y de radio en todo el mundo. Su librería de imágenes consiste de más de diez millones de fotografías. La AP tiene 243 oficinas y llega a 121 países, y es también la agencia de noticias con mayor cantidad de empleados en más de 120 países. También mantiene el récord en premios Pulitzer, con un total de 49.

      No es exactamente Público ni el OK Diario. Es otra cosa.

      • castro - 15 julio 2023 - 08:14

        «Associated Press (AP) es una una cooperativa propiedad de sus periódicos y estaciones de radio y televisión contribuyentes en los Estados Unidos» texto copiado de la Wikipedia que no tiene desperdicio…

        «También mantiene el récord en premios Pulitzer, con un total de 49»

        Associated Press
        200 Liberty St.
        Nueva York, NY 10281

        ¿Tiene preguntas?

        «Fuimos fundados como una cooperativa de noticias independiente; hasta ahora seguimos siendo propiedad de los miembros de nuestro periódico, estaciones de radio y televisión de los Estados Unidos»

        «Hemos ganado 52 premios Pulitzer, incluidos 31 por fotografía, desde que el premio se creó en 1917»

        «Eso significa que aborrecemos la falta de exactitud, el descuido, la parcialidad y las distorsiones»

  • #017
    Gorki - 14 julio 2023 - 14:13

    No me parece mal que paguen por una archivo de noticias. Pero siendo «noticia» solo lo anormal, puede que lleguen a tener una «opinión» de la sociedad un tanto desviada de lo que es normal.

    «Perro muerde a hombre», no es noticia, «Hombre muerde a perro», es noticia,

    • Michel Henric-Coll - 18 julio 2023 - 18:14

      Pues sí. Esta reflexión me recuerda la crítica a S. Freud, de que había elaborado sus teorías estudiando la parte enferma de la humanidad.

  • #019
    menestro - 14 julio 2023 - 15:27

    Como era de esperar, las sentencias sobre el uso de contenidos protegidos por copyright en EEUU ha restringido el uso del scraping para entrenar algoritmos.

    OpenAI solo está creando un chatbot generalista, mantiene conversaciones y se alimenta de eventos de actualidad para elaborar el contenido de las mismas, pero no sostiene opiniones propias sino que, «genera discursos» basados en ese contenido de actualidad. Como un tertuliano, sin poder crear un criterio propio o elaborar un razonamiento sólido. Solo son silogismos.

    Es un poco como las personas con grafomanía, o logorrea, que escriben discursos sin sentido hasta en las vallas de las obras, o las paredes en blanco de las calles, e intentan embarcarte en sus divagaciones.

    Es un algoritmo para generar conversaciones, no artículos periodísticos, y tiene limitaciones evidentes en ese sentido.

    «No quiero ser tu amigo, pero sería bonito que lo fueras de ella.»

    Martín Luther King

  • #020
    Manuel - 14 julio 2023 - 17:51


    «No quiero ser tu amigo, pero sería bonito que lo fueras de ella.»

    Martín Luther King

    ¿Y esa cita?

  • #021
    Xaquín - 14 julio 2023 - 19:34

    Estamos con lo de siempre.

    El artisto/a/e que copia como dibuja un africano anónimo, se lo «curra» un poco y ya quiere cobrar como si fuera auténtico. O el que saca una foto y la convierte en bits, luego quiere cobrar si alguien toma esos bits (que están «por el aire») y rehace la foto.

    Convenía entrar algo más en el mundo virtual. Donde ya no valen las «virtudes» creativas del siglo pasado. Que aún espera el Homero que le paguen por «copiarlo». O el Cervantes, por poner un ejemplo más reciente.

    Y el típico y creativo cantero gallego, que se molesta en hacer una obra maestra en piedra, pero ya nadie le vuelve a pagar (por usarla todos los días, por sacarle fotos, por copiarla para lo que sea… ). Es más, seguro que ni le pagan por usar la piedra como material de construcción, suponiendo que fuese de su propiedad la obra, como mucho su valor «en piedra».

    Y desde cuando se paga la fuerza de trabajo que está en la cadena de montaje «creando» un coche, por muy poco creativo que parezca. Ya que el diseño fue de un «diseñador de coches», al que no le pagan por cada coche que sale a la carretera (tengo entendido). Pero un fotógrafo le hace una foto «con chica bonita» al coche, por ejemplo, y ya quiere que le paguen por cada reproducción , a él y a sus descendientes.

    Y ya no le llega con cobrar a medios de información periodística, que se lucran con la foto (una vez pagada la exclusiva inicial), sino también quieren cobrar del pardillo internauta, que quiere ilustrar su blog (o comentario), del que no saca un puto peso.

    La llamada creatividad, un esfuerzo básicamente cerebral (con mucha química por medio), no tiene por qué cobrar más dinero, que el esfuerzo muscular y la maña que muestra, ese mismo cerebro, al «sudar» en un trabajo manual.

    Tus ocho (o las que sean) horas de trabajo y punto.

  • #022
    Lua - 14 julio 2023 - 19:37

    OFFTOPIC (Reflexion)

    Lo que no se sube, no existe

    • Marcos - 15 julio 2023 - 02:15

      Me llama muchísimo la atención este curioso comportamiento del ser humano.

      Hace muchos años, corté con quien era mi primera pareja seria y tuve el estado emocional que se puede entender en aquellas circunstancias. Por aquella época, tocaba Jarabe de Palo en un concierto en la ciudad y mi “humor” acrecentaba la necesidad de querer ir con alguien a ver mi (aún y creo que por siempre) grupo favorito. No encontré a nadie y mi mal carácter ese día aún crecía por momentos.

      Pocas horas antes del concierto, pensé, que cuando me pongo a Pau Donés, me lo pongo para mi y no necesito nadie en mi estudio que esté escuchando Spotify (los cd en aquellos tiempos) conmigo.

      Cogí y me fui solo al concierto y la verdad es que fue uno de los conciertos que más disfruté de mi vida.

      He trabajado en cines y suele haber un prejuicio a veces en torno al ir solo al cine como un acto un tanto a lamentar. Con los conciertos, considero que esto se dispara mucho más aún. Resulta curiosa esa necesidad de interacción y compartir con otra persona en un momento concreto lo que estás viviendo, cuando cada persona tiene un nivel de profunda intimidad con cada obra o artista, diferente.

      Al final, es lógico porque somos seres humanos, pero considero que lo que hoy expones no es sino la muestra de lo poco que nos escuchamos a nosotros mismos y la necesidad que tenemos de “hablarles o transmitirles” a los demás buscando además el feedback a modo de me gustas, comentarios cuquis y esas cosas.

      El terrible identificadnos con nuestro ego.

      Hace mucho que no voy a un concierto (nunca he ido a uno de estos multitudinarios), pero creo que este “nuevo” hábito sin duda hace que nunca me lo plantee siquiera.

  • #024
    Edgar - 14 julio 2023 - 20:19

    En mi opinión estamos viviendo algo similar a aquello acontecido durante la Revolución Industrial. Un cambio radical en los procesos para hacer las cosas que en últimas acercó a la población al goce de una cantidad inmensa de productos y servicios pero que se llevó por delante a familias, gremios, artesanos, etc. Quizá ahora esas víctimas son los propietarios (no económico) y creadores del conocimiento.

    Dicho esto, podría pensar en que así como apareció la comida basura, la moda rápida, los autos económicos, y demás, así podrá pasar con los contenidos. Bueno, ya ha venido sucediendo y podemos encontrar mucha basura en la Internet, pero creo que en el futuro tendremos que pagar mucho más por información hecha por humanos y que por el contrario, la información generada por IA será masiva, de poca profundidad, llena de errores. Lamentablemente, esto no es nada bueno, pues seguirá aumentando la brecha. Hay que pagar para saber más pero para poder pagar, tienes que saber.

Dejar un Comentario

Los comentarios están cerrados