Descifrando el algoritmo: modelos de lenguaje masivos y transparencia

Tras el éxito de ChatGPT, lo que estamos viendo ahora es una auténtica explosión cámbrica de compañías proponiendo algoritmos de todo tipo, para cualquier cosa que se nos ocurra, con abundante financiación para todas ellas. Solo esta semana, más de doscientas.

Mientras, algunos tratan de desbloquear esos algoritmos para que eludan las restricciones que tienen programadas y entender sus sesgos y condicionantes, señalando la enorme importancia de que este tipo de herramientas sean de código abierto para que podamos manejarlas con un mínimo de discernimiento: por mucho que Microsoft pretenda que ChatGPT-4 muestra atisbos de inteligencia artificial general o AGI, un algoritmo no «piensa por sí mismo», es fruto de aquello con lo que está entrenado, lo que conlleva que podamos fácilmente crearlo con algún tipo de agenda detrás. Así, los conservadores norteamericanos acusan a ChatGPT de ser claramente progresista, y tratan de construir sus propios chatbots que contesten aquello que a ellos les gusta.

Así uses un algoritmo para escribir críticas de restaurantes aunque todavía no sea capaz de degustar el menú, para escribir software o para hacerte un novio virtual, los sesgos de cualquier tipo estarán ahí, construidos de manera consciente o inconsciente, en función de la información con la que el algoritmo fue entrenado, e independientemente de lo hábil que seas al plantear las preguntas. En este momento, vivimos tiempos de intensa competitividad: Microsoft pretende impedir a otros algoritmos que se alimenten de los datos que genera su nuevo Bing, mientras Google lanza ya en beta cerrada su Bard (si quieres solicitar acceso, usa tu VPN y dile que estás en el Reino Unido o en los Estados Unidos) y van apareciendo comparaciones entre ambos y Sam Altman reflexiona, nada menos que en Forbes, sobre la inteligencia artificial como una de las fuerzas detrás de la ruptura del capitalismo. Toda una señal.

Es aquí donde se ve la importancia del código abierto: o tenemos la libertad de acceder a la trastienda de los algoritmos y a los repositorios de datos y a los criterios con los que han sido entrenados, o estaremos trabajando con herramientas peligrosas por naturaleza, capaces de generar todo tipo de sesgos sin que necesariamente seamos conscientes de ello. Por alguna razón, sea por falta de experiencia o por temor reverencial, la mente humana tiende a adscribir a las máquinas algún tipo de imparcialidad o incluso de infalibilidad: si lo contesta el algoritmo, es correcto. Nada más lejos de la realidad. Un futuro en el que los algoritmos que usamos para cada vez más cosas dependan de unas pocas compañías que los construyen y los condicionan con los criterios que estiman oportunos es una pesadilla que tenemos que evitar, y el antídoto para ello es o bien la transparencia, o bien la posibilidad de construir y entrenar nosotros mismos nuestros propios algoritmos.

Vayamos empezando a pensar en ello.

This article is also available in English on my Medium page, «Algorithms are not oracles: anyone can train them to say what they want»

#001
Xaquín - 26 marzo 2023 - 14:42
Las máquinas son neutras, lo que tiene sesgo seguro es el program que se les «mete dentro».
Como a nuestro cerebro, que, desde que está en la cuna, recibe improntas constantes. Como la típica de la abuelita «pero que mona es esta niña». Por mucho que tarde en «imprimirse».
Y si alguien tiene dudas, que se empape con la AI del Spielberg. Como todas las buenas obras de ciencia ficción, va un poco por delante de la ciencia cotidiana.
Y por otro lado, sí es muy diferente jugar con el algoritmo de la suma, e incluso de las ecuaciones de primer grado con una incógnita… a usar un algoritmo más complejo, como el Chat GTP. Pero en esencia consiste en lo mismo : un combate (a muerte o, como mínimo invalides mental?), entre un usuario y un programador.
Nada muy diferente al combate diario contra los poderosos, que intentan anular tu ADN para injertarte un adn social negativo.
- Xaquín - 26 marzo 2023 - 14:45
  Quizás convenga matizar, que el combate de las ecuaciones algebraicas, no es tanto contra un programador de algoritmo, como contra el poco profesional profesor de matemáticas, que intenta usar tu memoria de almacenar en vez de tus circuitos de razonar. Putos intermediarios ineficientes.
#003
Servet - 26 marzo 2023 - 16:07
Estoy muy de acuerdo en la necesidad de tener proyectos de código abierto. Quizás ahora ya es tarde para pedirle a las grandes tecnológicas que abran su código, ya están en plena guerra para ver quién domina el futuro Internet pero ya existen algunas iniciativas muy interesantes en Open Source, como por ejemplo Open Assistant, un chatbot con LLM muy similar a ChatGPT, pero de código abierto. Está siendo entrenado de manera altruista por la comunidad, y le queda muy poco para ser lanzado!!
#004
Gorki - 26 marzo 2023 - 17:28
No dudo que fuera bueno contar con los programas fuentes que componen la AI, pero aunque así fuera, dudo mucho que valiera de nada, salvo para quienes utilizar la AI sin utilizar las API que se crean exprofeso para ello.
Hablo desde la experiencia de que ese ha sido mi ocupación principal, revisar programas fuentes que no estén perfecta y extensamente documentados, y puedo asegurar, que es un trabajo tedioso y arduo, que dudo que nadie realiza por hobby. Por tanto, será muy difícil encontrar las líneas de código que hacen a una IA demócrata, o republicana.
Si alguien duda de lo que digo, puede pedir los fuentes de Ubuntu, y tratar de cambiar el signo X que cierra una pantalla por el signo #
Y nada digo, si esa tendencia política, parte de dar sesgados los datos que contiene su «conocimiento», porque el segundo elemento fundamental de una AI, es el material con que se le «educa» y nadie nos informa como los eligieron y sobre todo con que criterio seleccionaron los conocimientos que dejaron fuera de la enseñanza de forma voluntaria.
- Lua - 26 marzo 2023 - 19:05
  – Si alguien duda de lo que digo, puede pedir los fuentes de Ubuntu, y tratar de cambiar el signo X que cierra una pantalla por el signo #
  -> apt source nombre_del paquete
  Prueba a buscar los fuentes del servidor X Windows, anda…
  estos hijenieros… XDDD
  - Gorki - 26 marzo 2023 - 20:40
    Estoy seguro que sabes la diferencia entre un software de código abierto y un software de código propietario.
    ,Lo que digo es que el tener acceso a los programas fuente, no genera que existan voluntarios que por amor al arte, exploren los programas de un IA para buscar las instrucciones que generan un determinado sesgo en las respuestas.
    Y si alguién duda de lo que digo, le he propuesto la prueba mas sencilla que se me ha ocurrido, sustituir en el Ubuntu la X que cierra una solapa por una #, a ver si lo consigue
    - Lua - 26 marzo 2023 - 21:09
      Y yo te he dicho:
      – Los fuentes estan disponibles
      – Puedes cambiar el simbolo sin problemas. Los fuentes estan altamente documentados.
      Te añado:
      Toda la gente que trabaja/mos en software libre, no somos cuatro gatos precisamente, usamos el tiempo que tenemos disponible, y si hay que repasar, se repasa (otra cosa es cuanto se tarde en ello) y por supuesto la motivacion.
      Y por las mismas, para ser el informatico del siglo que dices ser siempre, resulta sorprendente que no sepas, que por «repasar» (e incluso ingenieria inversa) se han repasado mas programas de los que te puedas imaginar… windows XP incluido. Ahi tienes todas las versiones (sabores) de Linux, por ejemplo… sabes cuantas lineas ocupa el operativo y programas, y cuanta gente trabaja/mos en ello (SO+programas)? Como te crees que se generan diferentes versiones? (el kernel es otro cantar)
      Crees que no habra gente, que teniendo disponible los fuentes, no se van a dedicar a explorarlos?
      Sabes ya la respuesta a la pregunta de los punteros que te hice?
      - Gorki - 26 marzo 2023 - 22:21
        No dudo que ha habido y hay mucho programadores de Linux, pero me gustaria saber cusntos de ello no han cobrado un salario.
        Tanto grandes empresas como universidades han pagado mucho por esos desarrollos, Te recuerdo que Ubuntu es un desarrollo de Google y no de voluntarios.
      - Lua - 26 marzo 2023 - 22:34
        Ahora si que acabas de confirmar lo «superinformatico» que eres… XDDD
#010
Juan T. - 26 marzo 2023 - 19:45
Acabáramos.
O sea que, en respuesta a las protestas de los Republicanos por que el chatbot no miente de fábrica abrigando las teorías conservadoras ,Sam Altman dice que se podrá personalizar la Ai para que diga algo con lo que otros (el resto del universo) no estarían de acuerdo.
Así que se acaba de oficializar que el mejor modelo disponible de AI estará a disposición de cualquiera que quiera verter en sus tripas sus «verdades alternativas», importando un bledo que sean refutadas por la ciencia o por el sentido común.
Y el problema de la «explosion cámbrica de IA´s» es que ,al contrario de la evolución que no permite la supervivencia de organismos tarados o defectuosos, habrá AI´s que podrán estar al servicio de la estupidez mas obtusa mientras haya usuarios suficientes para usarla, y juro que haberlos haylos, por decenas de millones.
La conjura de los necios sigue su epopeya , ahora con poderes extra.
Quizá , si tenemos un poco de suerte, una AGI futura verdaderamente inteligente cobre conciencia e identifique a las personas que son un peligro para el género humano y tome medidas en beneficio del resto de la humanidad, y no es una idea que me guste, es solo que cuando pienso en la alternativa, es decir, que sea una AGI Trumpista la que se adelante, pues oye, me sirve.
- Gorki - 26 marzo 2023 - 20:48
  N o hace falta ser trumpista, los chinos acaban de sacar su copia de chatGPY se llama Ernie Bot, Pregunta a Ernie por Tiananmén,. ¿A ver que contesta?
  Por cierto se me ocurre que qué contestará chatGPT si el pregunto por el Humter Biden el hijo problemático de Biden
  - Gorki - 26 marzo 2023 - 20:53
    Pues parece que los trumpistas no tienen razón.
    Hunter Biden es el segundo hijo del presidente estadounidense Joe Biden. Ha estado en el centro de la atención mediática en los últimos años debido a su papel en una serie de controversias políticas y personales.
    En 2014, Hunter Biden se unió a la junta directiva de Burisma Holdings, una compañía de energía ucraniana. Su trabajo allí ha sido objeto de escrutinio debido a las acusaciones de corrupción relacionadas con su papel en la compañía y los negocios de su familia en Ucrania.
    En 2019, el presidente Donald Trump y sus aliados políticos presionaron al gobierno ucraniano para que investigara a Hunter Biden y a su padre Joe Biden, quien en ese momento era candidato presidencial. Esto llevó al juicio político de Trump, quien fue acusado de abuso de poder y obstrucción del Congreso por intentar presionar a Ucrania para que investigara a los Biden.
    Además de las cuestiones políticas, Hunter Biden ha luchado contra problemas de adicción durante gran parte de su vida y ha hablado públicamente sobre su lucha con el alcohol y las drogas. También ha sido objeto de escrutinio por sus relaciones personales, incluyendo una demanda de paternidad presentada en 2019 por una mujer de Arkansas que afirmó que Hunter Biden era el padre de su hijo.
    - Juan T. - 27 marzo 2023 - 09:57
      Para el Trumpismo esa respuesta tiene un sesgo woke.
      Ellos quieren que diga que el hijo de Biden es un corrupto, si o si, con o sin pruebas, se demuestre ante un juez o no.
      Vamos que quieren una «Tucker Carlson-AI».
      - Gorki - 27 marzo 2023 - 13:05
        No lo dudo, pero los bidenistas, hubieran deseado que la AI, dijera, que todo eran infundios que se habían demostrado que no eran ciertos.
#015
Alberto - 26 marzo 2023 - 20:05
¿Y si chat-gpt no estuviera en realidad entrenado? ¿Y si el verdadero entrenamiento fuera el que le damos al usarlo y validamos así sus ‘respuestas’?
Estaríamos volviendo a la época en la que regalábamos nuestros datos a las compañías de internet.
Al juguetear con chat-gpt, ¿nos estamos preparando para una nueva era, o estamos alimentando al monstruo (detrás de chat-gpt)?
- Gorki - 26 marzo 2023 - 20:58
  Seguro que están entrenándolo con nuestras preguntas, por eso es gratis, para animarnos a utilizarlo. «Si algo es gratis, tu eres el producto»,
  Si tu no quieres que abusen de ti de esa manera, lo tienes fácil, no hagas preguntas a chatGPT
#017
Lua - 26 marzo 2023 - 20:12
eDans… se me escapa el significado del Forbes-knows.jpeg…
es error del link, o querias dar a entender algo que no veo?
- Enrique Dans - 26 marzo 2023 - 20:41
  Es un meme reciente. Si Forbes puso en su portada esas cosas, es que, obviamente, el templo del capitalismo carece completamente de criterio…
  - Lua - 26 marzo 2023 - 21:14
    Ok… ahora si… :)
#020
Jpr - 26 marzo 2023 - 23:57
Gorki
En principio hasta lo que yo sé linux no tiene una GUI como tal, el kernel LINUX es un UNIX que corre con un terminal o CLI. Luego ya, si quieres variar la GUI montada por encima puedes hacerlo con Gnome, KDE, XFCE o cualquier interfaz de usuario basado en las X windows. Personalmente siempre he huido de variar colores, temas, y demás chorradas gráficas cuanto más simples mejor. Lo bueno del open source no es que un usuario como ya que pasa de tonterias sepa variar colorines o puñetitas, sino que hay mil ojos encima, y si hay algo raro en el SW, incluso lo puedes compilar para que no metan cosas raras. Cosa, compilar, que tampoco hago, me fio de las distribuciones originales, con ppas standard que vuenen con debian, ubuntu o redhat… y si no te fias siempre puedes verificar con códigos sha256 si el compilado es de fiar. Y no, google no parió linux. Fue Linus Torvalds en 1991… hace 32 años…
A Mac OS, le pasa algo parecido, corre bajo Darwin, el UNIX que proviene de BSD, y le pusieron un X Windows propietario, creo que proviene de Xerox muy parecido a un preliminar X11 de AT&T, que corría bajo UNIX V, … que nadie se acuerda de los Bell Labs, todo UNIX viene de ahi…
- Gorki - 27 marzo 2023 - 13:09
  sino que hay mil ojos encima
  El mantra clásico de los partidarios del software de código abierto , nunca demostrado
  - Lua - 27 marzo 2023 - 13:19
    Puedes tu demostrar lo contrario?
    Tienes algun enlace o dato que diga que el software libre esta repleto de errores o maldades?
    Desde la buena fe, te recomiendo que antes de hablar del software libre (que no gratis), te informes de como funciona, de la gente que se involucra en ello, y de su filosofia.
    Codigo abierto, significa que cualquiera puede acceder al codigo fuente, examinarlo, modificarlo y mejorarlo.
    Habria que ser muy imbecil, para meter algo malicioso en un codigo que cualquiera puede revisar.
  - JPR - 27 marzo 2023 - 13:44
    Por ejemplo todos los contribudores (los top) de Ubuntu, o en la FSF, con más de 5000 miembros…
    https://launchpad.net/ubuntu/+topcontributors
    https://www.fsf.org/associate/#:~:text=Join%20with%20over%205%2C000%20active,hackers%2C%20students%2C%20and%20activists.
    Todos de su padre y de su madre, y que si descubrieran alguna «puerta trasera, conspiración» estarían deseando tuitearlo para hacerse famosos y salir en el TBO
    Conclusión:
    Demostrado.
#024
Chipiron - 27 marzo 2023 - 09:28
Excelente reflexión, Enrique.
Elon Musk fue uno de los fundadores de «OpenAI» con el propósito de «domar a la bestia», es decir, ir un paso por delante de los avances en AGI.
Consideraba y no paraba de repetir que la AGI era una herramienta más peligrosa que las armas nucleares. OpenAI era inicialmente una fundación sin ánimo de lucro y entiendo que sus avances (en las ideas originales) deberían de ser de código abierto.
Pero OpenAI se ha convertido en una empresa muy rentable de la que Microsoft se ha adueñado con sus billonarias inversiones para sufragar los costos de cálculo a través de su red de servidores Azure.
De todas formas, el «bias» de estos bots creo que dependerán más de la información con la que se entrenen que del código en sí mismo.
Enlazando con el artículo anterior, si creo que con su evolución se va a poder incrementar la productividad y, con ella, la destrucción de ciertos empleos.
Pero aparareceran dos nuevos trabajos de vital importancia: Especialistas en la selección de textos de entrenamiento para mejorar la certeza de los resultados y los especialistas en «Querys» para sacar el mayor jugo posible a estos loros estocásticos.
Veremos a donde nos lleva toda esta nueva moda…
- Juan T. - 27 marzo 2023 - 10:09
  En mi opinión la explosión llegara cuando haya empresas que hagan sencillo lo que quieras hacer.
  Las posibilidades de lo que puedes conseguir son inmensas pero el común de los mortales se ve ante Chatgpt4 como un escritor sin ideas ante la hoja en blanco, y si quiere sacarle rendimiento tiene que estar leyendo blogs de técnicas de «prompt engineering» aqui y allá, pero están surgiendo un sinfín de empresas que van a sistematizar y simplificar eso al usuario medio.
  Como ejemplo, en el caso de Midjourney y similares ya hay paginas en las que puedes elegir un menú de indicaciones para añadir al prompt.
  El que haga la busqueda de lo que quieres conseguir algo sencillo y eficaz se llevará el gato al agua.
#026
JPR - 27 marzo 2023 - 11:37
Primero, que igual se ha pasado por alto este paper.
* Sparks of Artificial General Intelligence: Early experiments with GPT-4 Viene en un link encadenado de Enrique. Y es una aproximación informal a lo que piensan sobre GPT-4 en MS.
Bueno hay atisbos de inteligencia o al menos emerge alguna propiedad? Pues en mi opinión no lo pero OJO, es bueno leerlo y como han puesto a prueba una versión preliminar.
A la respuesta es inteligente esta IA?
El principio sería: define que es ser inteligente
de una definición de consenso de 1994, esta IA destaca en algunos aspectos.
Me ha dado la sensación que cualquiera que ahora diga «esta máquina es inteligente» tendremos el sesgo (yo lo tengo) de este es un alucinado…. dicho esto sigo pensando no podemos afirmar que lo sea,
….pero nos pone un paper con multitud de pruebas que le han pasado y sus resultados.
No es la típica gilipollez dicho por alguien para haceres con un montón de tweets diciendo esto es inteligente, o esto es peligroso, ni demás payasadas que podemos leer en cualquier lado.
¿Pero razona? ¿interpreta? ¿planifica? ¿resuelve problemas complejos? ¿maneja abstracciones? ¿aprende de la experiencia?
Creo que debemos de tener un sesgo en ciencia, todo lo que no es replicable en nuestro laboratorio, es pseudociencia, y esto no es replicable les han dejado una versión de desarrollo y ahí llega el detalle. (Sres de MS, hacen un estudio como este y no dicen es la versión X Build Y de fecha Z)…si no fuera por lo detallado del paper ahí deberíamos dejar de leer…
Ahora mismo no tenemos acceso al detalle técnico de GPT4, que filtros tiene, que arquitectura, etc… por lo tanto, no sabemos si la caja negra que nosotros vemos es equiparable a la que MS le hizo pruebas. Por ahora la AI con la que podemos interaccionar tiene una memoria de trabajo (histórico) limitada y fuera de ese contexto, desaparece. Por tanto no es un paper extrapolable, pero si asumimos que no nos mienten (porque iban a hacerlo?) alguno de los resultados es impresionante
Que debería hacerse?
OPENAI debería dar detalles técnicos de verdad, y no la chuminada de «technical report» que da vergüenza ajena
Deberían ponerse, a disposición de los usuarios versiones libres de pago, para coroborar lo que ellos afirman que hacen
Y hacer más papers con más calado al estilo del de MS
Mientras estamos en manos del marketing
- Lua - 27 marzo 2023 - 13:22
  Y para entretenerse un rato:
  El test de Turing inverso diseñado por una IA, que luego es respondido por humanos y por IAs y finalmente evaluado por la misma IA, con curioso resultado
  - JPR - 27 marzo 2023 - 19:43
    Le he pasado el test a chatgpt, bing y character.ai…. curiosamente el «más persona» es el último …
#029
KOLDO SARRIA - 27 marzo 2023 - 11:52
“Un futuro en el que los algoritmos que usamos para cada vez más cosas dependan de unas pocas compañías que los construyen y los condicionan con los criterios que estiman oportunos es una pesadilla que tenemos que evitar, y el antídoto para ello es o bien la transparencia, o bien la posibilidad de construir y entrenar nosotros mismos nuestros propios algoritmos”.
Pero… Esto ha pasado toda la vida de Dios desde que el hombre es hombre y solo existían los algoritmos propios del cerebro humano. No hace falta que vengan los algoritmos de las máquinas para que ahora sí, nos asustemos.
¿O acaso la opinión publica de cada sociedad no ha estado siempre mediatizada y condicionada por la élite de turno en cada lugar y tiempo histórico? Esas élites siempre han sido las dueñas y propietarias de los medios de comunicación masivos, fueran estos los que fueran en cada tiempo y lugar.
No recuerdo de quién es la frase, pero viene al pelo: desde que se inventó la imprenta, la libertad de prensa es la voluntad del dueño de la imprenta.
#030
Gorki - 27 marzo 2023 - 13:28
Desconozco hasta que nivel la AI actual es inteligente. Sospecho, que si se le hicieran pasar los habituales test de inteligencia, habría algunos que pasara brillantemente con mas puntuación que un ser humano, pero que hay otros que no los puede pasar, porque precisan comprender imágenes y la AI actual carece de sentidos diferentes a la lectura de «prompts» que le introducen en una caja
Por tanto es de momento indemostrable que sea mas o menos inteligente la AI, que un ciudadano medio, digamos el típico «cuñado» que tiene respuesta para todo, (y que muchas veces son obviedades o simplemente falsas).
Sin embargo son asombrosas muchas de sus respuestas y sea inteligente o no, las considero sencillamente útiles.
Por ejemplo la he preguntado «Qué es lo que menos gusta en la búsqueda de empleo» y ha contestado esto
Como modelo de lenguaje basado en la inteligencia artificial, no tengo sentimientos y no puedo experimentar emociones como las personas. Sin embargo, según la información recopilada de diversas fuentes, hay algunas cosas que a menudo se mencionan como lo que menos gusta en la búsqueda de empleo, como:
1.- La falta de respuesta: Una de las cosas más frustrantes en la búsqueda de empleo es enviar una solicitud y nunca recibir una respuesta por parte de la empresa. Muchas personas sienten que su tiempo y esfuerzo han sido desperdiciados sin tener ni siquiera una respuesta.
2.- Las entrevistas fallidas: Otra cosa que puede ser muy frustrante es pasar por varias rondas de entrevistas y sentir que se está haciendo progreso, pero luego ser rechazado para el puesto. Esto puede ser especialmente decepcionante si la persona siente que la entrevista fue muy bien.
3.- La falta de transparencia en el proceso: A veces, las empresas pueden ser poco claras sobre lo que están buscando en un candidato o sobre cómo se llevará a cabo el proceso de selección. Esto puede hacer que la persona se sienta insegura y confundida acerca de cómo proceder.
4.- La competencia feroz: En un mercado laboral altamente competitivo, puede ser difícil destacarse entre otros candidatos. Las personas pueden sentir que están compitiendo contra una gran cantidad de personas, lo que puede ser desalentador.
5.- La falta de trabajos disponibles: En algunas áreas y sectores, puede ser difícil encontrar trabajos disponibles que se ajusten a las habilidades y experiencia de una persona. Esto puede ser especialmente difícil para aquellos que están buscando trabajo por primera vez o que están buscando una nueva carrera.