El absurdo conceptual de evaluar a los algoritmos como a los humanos

IMAGE: Yasmin Dwiputri - Data Hazards - Project AI across industries - Better Images of AI (CC BY)

Un interesante artículo en Venture Beat, «Why exams intended for humans might not be good benchmarks for LLMs like GPT-4«, incide en un tema sobre el que he pensado cada vez que surge una noticia del tipo «ChatGPT supera el examen de tal y tal cosa«, noticias que invariablemente se convierten en protagonistas de corrillos y conversaciones de café.

Que a los humanos nos resulte sorprendente que un algoritmo sea capaz de pasar un examen que consideramos complicado entra dentro de lo razonable. Sin embargo, si analizamos la forma en la que aprende un algoritmo, la cuestión resulta mucho más fácil de entender: en primer lugar, hablamos de algoritmos entrenados con una enorme cantidad de información, prácticamente con todo texto que encuentran en la red, excluyendo únicamente algunos casos evidentes. A partir de ahí, sus desarrolladores se esfuerzan especialmente por separar los datos que utilizan para su entrenamiento y para ponerlos a prueba posteriormente. Pero lógicamente, el volumen de datos utilizado en el entrenamiento es tan descomunal, que resulta muy difícil asegurarse de que los ejemplos que se usan después para evaluar el modelo de prueba no estén incluidos de alguna manera en los datos de capacitación. Esto configura un problema, conocido habitualmente como training data contamination: dado que la memoria del algoritmo es, en principio, muy grande y perfecta (digital), los datos incluidos en su entrenamiento configuran cuestiones que el algoritmo siempre responde bien, aunque sería un error esperar lo mismo de otros datos que no están, en principio, incluidos ahí, y que elabora de manera derivada.

¿Cuál es el problema? Simplemente, que el cerebro humano funciona de otra manera, y con limitaciones evidentes: nuestra memoria no es ilimitada, y nuestra capacidad de relación se construye de otra manera a lo largo de tiempo y experiencia. En realidad, ni siquiera está claro – o más bien, está muy poco claro – que los exámenes y tests diseñados para evaluar a los humanos sean adecuados: una oposición con un temario muy largo, por ejemplo, resulta completamente absurda a la hora de calificar a un futuro juez o a un notario, porque la habilidad memorística, que se pone a prueba extensivamente al hacer al examinado «cantar» los temas, es infinitamente menos importante que la capacidad de relación, mucho menos evaluada. En la práctica profesional, nuestra memoria tiene su propio algoritmo: recordamos aquello que es más reciente, lo que nos encontramos de manera más frecuente, o a lo que adscribimos más importancia (Recency, Frequency, Value, o RFV). De ahí que exámenes considerados como enormemente consolidados, como el SAT, el GMAT, el GRE o el MIR sean, en realidad, buenos a la hora de evaluar la memoria, pero profundamente inadecuados para predecir una futura competencia profesional.

Confrontar a un algoritmo con ese tipo de exámenes que ya de por sí están mal diseñados para los humanos nos ofrece una conclusión completamente absurda: si almacenamos un montón de respuestas en una base de datos, un algoritmo es perfectamente capaz de ir devolviéndolas cuando una simple búsqueda de términos le ofrece el momento de hacerlo. Es completamente primario: almacena y recupera. Si el examen exige otro tipo de habilidades más deductivas, de relación o de otros tipos, podría ser más razonable, pero ese no suele ser el caso en los exámenes a los que nos referimos, porque siguen heredando, desgraciadamente, un modelo educativo en el que lo que se incentivaba era la capacidad de memorizar.

Los algoritmos, por tanto, van a ser mucho mejores a la hora de «aumentar» a un trabajador humano con una memoria infalible o un repositorio ingente de datos, que de sustituirlo para llevar a cabo tareas realmente importantes en una definición de puesto de trabajo determinada que demande una mínima inteligencia. Pero sobre todo, deberíamos abandonar la tendencia hacia el sensacionalismo y el amarillismo que reflejan cosas como «ChatGPT ha pasado el MIR, ya podrá sustituir a los médicos» o «ChatGPT ha pasado el BAR, sustituirá a los abogados», porque están muy, pero muy lejos de tener algún sentido.

Sería interesante proponernos como sociedad relevar el viejo modelo de hace generaciones basado en la memorística, para después plantearnos la mejor manera de evaluar a los futuros profesionales, y finalmente, tratar de ver cómo le va a ChatGPT con ese nuevo modelo de examen. Nos permitiría entender en qué somos buenos como humanos, qué caracteriza a los buenos profesionales – que en muy raras ocasiones es una habilidad memorística rayana en lo circense – y cómo podemos, gracias a ese conocimiento, entrenar mejores algoritmos. Pero me parece que estamos tan, pero tan lejos de hacer algo así – por cerrazón, por corporativismo y por un montón de cuestiones sociales absurdas – que nunca llegaremos a saber lo que pasaría si fuésemos capaces de algo así.


This article is also available in English on my Medium page, «If we really want to get the most from algorithms, we need to rethink how we assess human intelligence»

20 comentarios

  • #001
    Xaquín - 29 abril 2023 - 12:53

    «se pone a prueba extensivamente al hacer al examinado «cantar» los temas, es infinitamente menos importante que la capacidad de relación, mucho menos evaluada» (EDans).

    Viene siendo el quid de muchas cuestiones que la gente relaciona con la inteligencia, de cualquier tipo. E incluso con el arte de cantar.

    Porque habría que ver si una IA, que desconoce la forma de cantar de una diva como Maria Callas, por ejemplo, sería capaz de dar con su estilo de canto, que esta señora descubrió por si misma. A partir de diversos datos de otros cantantes, anteriores a ella.

    Porque dudo mucho (mucho) que la inteligencia humana (o la de una máquina) supere el exquisito trabajo de millones de años, en los que la llamada naturaleza (sea lo que eso sea), se afanó en descubrir por múltiples selecciones mutacionales, un tipo de combinación neuronal, capaz de interrelacionar datos previos con la misma eficiencia, de dicha naturaleza. Algo o alguien, a quien no le gustó nunca, precisamente estancarse. Y por eso nos «contempla» con cierta tristeza.

    Y llamarme pesimista. Pero esa capacidad humana es precisamente lo que hace casi imposible, que una IA nos «venza». Salvo que queramos seguir jugando en la Liga de los SH como Mediocres Versiones del HS.

    Lo de cantar, en otros ámbitos, se llama memorizar a. tope y tiene un triste colofón. Además de sobrevalorar una capacidad humana, más bien secundaria. La que podemos llamar de cumpleaños y listín telefónico.

    Y es que los tribunales «clasificadores» son los primeros en obviar un sistema de pregunta y respuesta, que «esté más cerca del clavo», pero que, lógicamente supone un esfuerzo de elaboración/evaluación mucho mayor.

    Esa lacra se sufre en todo tipo de tribunal (colectivo o individual)… y 30 años de profesión (incluido un tribunal de oposición a maestro, como «medidor») lo pueden avalar.

    Nada más triste que comprobar, como un profesional de la educación (según él y otros colegas), se limita a evaluar cuatro miserables características de un examen, ya de por si poco trabajado profesionalmente, en su elaboración previa

    Pero claro, el problema no es el puto medidor humano, que además se pavonea de saber la hostia, sobre el tema de examen, sino la pobre IA, que salió, para más inri, de la cabeza de un puto ser humano.

    • SANTAS PASCUAS - 29 abril 2023 - 20:06

      Es que estudiando no tiene mérito cualquiera aprueba…

  • #003
    Luis Hernandez - 29 abril 2023 - 12:57

    Una de las primeras cosas que pensé al empezar a utilizar ChatGPT fue: «Esto por fin va a forzar el cambio en la manera en que se hacen los exámenes y se evalúa a los alumnos en todos los niveles educativos».
    Los típicos test de conocimientos son muy fáciles de elaborar y de evaluar pero son inútiles (siempre lo han sido) y los serán cada vez más.
    Evaluar el dominio sobre un campo de conocimiento y su aplicación práctica requiere mucho más trabajo y suele ser también más subjetivo, por lo que puede suponer un reto a la hora de justificar «la nota» del evaluado. Pero es que hasta el concepto de «nota» y el de la competición que se establece entre estudiantes me parecen profundamente equivocados y anacrónicos.

  • #004
    Gorki - 29 abril 2023 - 13:57

    Vamos a ver,

    Una calculadora Casio hace multiplicaciones mas seguras y veloces que cualquier humano.
    La cámara del móvil, hace retratos mas perfectos y en muchísimo menos tiempo que cualquier pintor
    Unos semáforos ordenan el tráfico en una plaza mejor que unos guardias de la circulación.
    Un programador de riegos, riega el jardín mejor que un jardinero

    Un chatbot actualizado que puede aprobar todo, desde un examen de grado hasta Biología

    Nadie duda que la Calculadora Casio, la cámara del móvil, el semáforo, y el programador de riegos,… no se puede comparar ni siquiera, con la inteligencia de un perro. ¿Por qué va a ser diferente con las AI?, Casi todas las que se diseñen, harán UNA COSA, mucho mejor que los humanos, quizá aprobar difíciles asignaturas y oposiciones, pero es no las hace capaces de competir hasta con los peores profesionales de cualquier tipo de trabajo.

  • #005
    Lua - 29 abril 2023 - 13:58

    Algo hemos ganado, cuando por fin, dejamos de lado el concepto Inteligencia Artificial (AI), puesto que, aunque sea el fin, aun no se ha llegado a ello, y ya empezamos a llamarlo por lo que realmente es: Aprendizaje Automático (ML).

    Inteligencia, requiere de (auto)consciencia (o si se prefiere, autonomía del pensar). Así nos lo define la RAE en todas sus aceptaciones:

    1. f. Capacidad de entender o comprender.
    2. f. Capacidad de resolver problemas.
    3. f. Conocimiento, comprensión, acto de entender.
    4. f. Sentido en que se puede tomar una proposición, un dicho o una expresión.
    5. f. Habilidad, destreza y experiencia.
    6. f. Trato y correspondencia secreta de dos o más personas o naciones entre sí.
    7. f. Sustancia puramente espiritual.

    Con la palabra “algoritmo”, nos esta pasando mas o menos lo mismo. Un algoritmo, no es nada físico, ni consciente, ni inteligente. No existe. Es etéreo. Un algoritmo, es la forma de llegar a una solución para resolver un problema partiendo de unos datos determinados.

    Algoritmo, se puede aplicar a todo. Una receta de hacer pan o unos callos a la madrileña, es un algoritmo. Un cálculo de interés compuesto, es un algoritmo. Un procedimiento quirúrgico para extirpar un tumor, es un algoritmo.

    Y nos dice la RAE:

    1. m. Conjunto ordenado y finito de operaciones que permite hallar la solución de un problema.
    2. m. Método y notación en las distintas formas del cálculo.

    Así tenemos que las líneas de programación empleadas para las mal llamadas IA’s, no son algoritmos sino la herramienta con la que la “idea” (el algoritmo) toma forma, como lo pueda ser el horno donde cueces el pan, las tripas de los callos, la calculadora o los bisturís.

    Si al intentar comunicar sobre ciertos temas, olvidamos el concepto del lenguaje con el que lo hacemos, igual no estamos comunicando.

    Quizás sería mejor, en lugar de utilizar la palabra “algoritmo”, mejor emplear palabras como “mecanismo” , “dispositivo”, “artefacto/artilugio”, “habilidad” o “artificio”, “herramienta” o simplemente, “instrumento”.

    Para centrar en el tema. Ya comentamos por aquí y pusimos enlaces pertinentes (a uno de los creadores del “engendro” IA, Joseph Weizenbaum), en el que ya advertía del peligro “humano” de precisamente “humanizar” los resultados. Esta en nuestro ADN dotar de esas cualidades a todo lo que nos resulta ambiciosamente semejante, como pueda ser la inteligencia que demuestre un perro, un quoka o una urraca. También lo que van pariendo los unos y ceros de nuestras maquinas. Así no es de extrañar los casos de ingenieros que creen que sus máquinas son semejantes como aquel de Google.

    El límite, nos corresponde a nosotros mismos. Saber la distinción entre “una maquina entrenada para ello” y una “maquina autoconsciente” Entre simple aprendizaje estadístico y consciencia para resolver problemas.

    Dicho de otra forma: Si una maquina consigue hacer por si misma un “algoritmo”, lejos de los parámetros con los que ha sido entrenada (otros algoritmos esta vez perpetrados por humanos), podremos decir que hay IA.

    Que una IA, pueda como comenta eDans, resolver una oposición, no la hace mas valida que a cualquiera. Y en esto (una vez despojada la paja mental) estoy bastante de acuerdo con el comentario de Xaquin.

    • C3po - 29 abril 2023 - 15:51

      Te has leido el comentario entelo de Xa-King

      Pol favol….
      Eles un clack!!

      • Lua - 29 abril 2023 - 17:23

        Leel, le leo… XDD
        Complendel sel mas xusto…

        • Gorki - 29 abril 2023 - 19:39

          Lo siento. Lo intento, paro a mitad del comentario tiro la toalla, mi cacumen no da para mas. La relación de la inteligencia artificial con el canto de María Callas, me ha hecho hoy saltar el disyuntor, (¿o se llama disruptor?), cerebral.

          XAQUÍN, te aprecio, incluso creo que a veces opinas parecido a mi,… pero a tu lado, la proceloso prosa de Góngora, es tan nítida como el inciso verbo de Azorín

          • Lua - 29 abril 2023 - 19:47

            Pero diselo a él, cobarde… XDD

    • Lua - 29 abril 2023 - 19:54

      Lo que decia de «humanizar»….

      Quien puede ver esto y no pensar «pobrecitoooo» XDDDD

      Robustness to pushes

  • #011
    Juan T. - 29 abril 2023 - 16:54

    Creo que infravaloramos la potencialidad del algoritmo de GPT4 , y ya no hablo de nuevos modelos mas potentes, si no tal cual está ahora.

    Con esto me refiero a que todavia no hemos rascado en las posibilidades que tiene, si bien salen nuevas de ellas cada dia.

    Que ahora tenga la posibilidad de consultar plugins especializados para armar su respuesta y que incluso cuando al consultar esas apps y descubre que la respuesta no es satisfactoria busque por si misma en internet respuestas mas adecuadas a lo que se le pide, no es algo que se supiera cuando apareció.

    De heho se comenta mucho últimamente , en base a esas capacidades emergentes, que ya tiene chispas de lo que se consideraria una AGI.

    Por otra parte con la inteligencia humana sucede lo contrario cuando se la compara al algoritmo : en ese caso se tiene en cuenta mas bien la potencialidad de la inteligencia humana ; la que tienen los que la utilizan optimamente, pero luego uno se va al bar de la esquina a tomar un café, oye cuatro conversaciones y se da cuenta de la triste realidad.

  • #012
    Alois - 29 abril 2023 - 17:30

    Muy buen post Enrique. Desgraciadamente también es bastante cansino tener que andar repitiéndole a la gente estos conceptos tan básicos, y yo ya he tirado la toalla, francamente. Cuando me hablan de «IAs» me río un buen rato, son un absurdo y los que estudiamos durante mucho tiempo Big Data sabemos muy bien que en realidad todos esos sistemas se basan en información descomunal, una especie de hackeo «de fuerza bruta».

    Hay una ilusión desmedida por decir que existe una IA «inteligente» (sirva la redundancia) que, a día de hoy, y en un futuro cercano, dista muy lejos de ser real o de existir. Pero eso no vende titulares, así que se repite la misma mentira hasta que parezca que sea verdad.

  • #013
    Santas Pascuas - 29 abril 2023 - 20:04

    Pues…. he estado meditando…. y….

    Creo que hace pasar a una maquina por un examen para personas no es en si malo !!!

    Me explico, que si el copilot es maravilloso, que si sabe programar, que si sabe hacer la O con un canuto

    ¿Qué es en realidad el titulo X de cualquier disciplina? Simplemente que una cria humana ha pasado determinado examen, o muchos juntos

    Si una IA pasa cierto examen que significa… pues simplemente que ha pasado tal examen…. y ya…. no es nada más que eso. Significa 2 cosas:

    a) Que el concepto que es una AGI hay que definirlo para ver si nos ponemos de acuerdo que pasa el test AGI para dummies
    b) Que en su simulación, esa IA nos ha demostrado que esos exámenes los pasa

    Son malos esos examenes?
    Son buenos esos examenes?

    Esa no es la discusión

    A ver si va a a resultar ahora que porque un individuo aprueba un examen, vamos a decir vaya mierda de examen…

    Esto es como el examen teórico de conducir.

    El aprobarlo solo significa que has aprobado el examen de conducir. Nadie dice que seas Fernando Alonso, eres un tío que ha aprobado un examen y punto.

    Si no lo apruebas sin embargo eres como mi excompañera de trabajo Carmen que lo aprobó a la quinta ….. torpe…..

    Y no digo nada con el práctico…

  • #014
    Lua - 30 abril 2023 - 09:46

    No tan OFFTOPIC:

    «Francisco Balaguer, catedrático de Derecho Constitucional en la Universidad de Granada y uno de los mayores expertos españoles en el tema, en un reciente libro titulado La Constitución del algoritmo, advierte sobre la necesidad de actuar en el mundo digital para que sea compatible con nuestros derechos y sistemas constitucionales. Porque, de momento, no lo es. Los algoritmos, por ejemplo, plantean problemas constitucionales por el tema del sesgo, tanto en su utilización como en su propio diseño, que tiene plena incidencia sobre derechos fundamentales de los ciudadanos. «

    Por qué el mundo digital es incompatible actualmente con los derechos fundamentales

    • Gorki - 30 abril 2023 - 10:53

      Acepto, porque creo que además es muy probable, que un «algoritmo» tenga sesgos a la hora de seleccionar un solicitante para un puesto de trabajo, Digamos que tenga sesgos de edad, que evalúe menos a los muy jóvenes, o a los mas viejos, que prefiera delgados, que gordos y mujeres, mas que hombres,

      Me vas a contar que si el seleccionador es humano, no tiene esos sesgos, o otros parecidos,

      ¿Dónde ha adquirido esos sesgos el «algoritmo»?.- De los datos acumulados de miles de selecciones hechas por humanos, que precisamente llevaban implícitos esos sesgos que el «algoritmo» ha heredado.

      • Lua - 30 abril 2023 - 11:11

        Yo no he dicho nada de eso…

        Es evidente que un humano, tambien tendra esos sesgos. Y por las mismas, esos sesgos seran trasladados al proceso artificial.

        • Gorki - 30 abril 2023 - 11:55

          Por ello pienso, que igual da ser seleccionado por un medio mecánico, o «algoritmo», que por un humano. Lo importante, (para la empresa), es que el medio utilizado, seleccione entre los posibles candidatos a un puesto, a alguien suficientemente capacitado para ejercerlo, aunque no sea el «mejor», que francamente, no se como se selecciona.

          • Lua - 30 abril 2023 - 13:18

            No Gorki, eso es, de nuevo, reducir al absurdo.

            Como la IA hace lo mismo que el humano, se lo perdonamos, la excusamos, nos conformamos…

            NO…

            Se supone que la IA nos tiene que superar, que para eso la hacemos. Si vamos a replicar los mismos problemas «humanos» en ella, no nos hace falta.

            Si la limpiamos, de sesgo, la hacemos mas imparcial, igual conseguimos «superar el error humano».

            En la famosa carta publicada no hace tanto, se hacia hincapie tambien en ello. De ahi pedir la moratoria de seis meses. Definir como y hacia donde queremos ir.

    • SANTAS PASCUAS - 30 abril 2023 - 11:54

      Lua

      Un offtopic, un offtopic de calidad !!

      El artículo de Soledad Gallego tan lejos y tan cerca, es la madurez intelectual frente al arribismo hype y sus publicaciones.

      Por si sirve el feedback, a veces acccedemos a los enlaces.

      * El primer enlace de este artículo, venturabeat ¿os habéis dado cuenta que no va firmado? Que credibilidad tiene un medio que no firma un profesional sus artículos.

      * business insider nos cuenta que quien lo escribe «informa sobre las noticias de moda con un enfoque en la belleza, el bienestar, la tecnología de consumo y la inteligencia artificial, examinando las formas en que estas industrias están dando forma a los consumidores Gen Z y millennial» – En fin.

      • Lua - 30 abril 2023 - 12:06

        Gracias… :P

        A mi tambien me revientan los articulos no firmados… muchas veces no los leo.

Dejar un Comentario

Los comentarios están cerrados