Cuando juzgar a la inteligencia artificial generativa por lo que sabe hacer hoy es un completo error

IMAGE: OpenAI's DALL·E, via ChatGPT

Una de las ideas más limitantes que podemos tener sobre la inteligencia artificial generativa es juzgarla únicamente por lo que es capaz de hacer hoy. Esta visión reduccionista o simplista, tan habitual como equivocada, aparece con frecuencia en los análisis superficiales, especialmente cuando se trata de tareas complejas como programar, investigar o escribir. Básicamente, «como lo probé e hizo algo mal, esto es una basura y lo va a ser siempre».

Pero juzgar una tecnología en rápido desarrollo por su estado actual es como juzgar la aviación por los primeros vuelos de los hermanos Wright: puede parecer sensato… pero es completamente miope.

Una crítica habitual y en parte razonable a la inteligencia artificial generativa proviene de voces como la del veterano desarrollador Thomas Ptacek, quien en su artículo «My AI skeptic friends are all nuts«, plantea que muchos entusiastas están sobrestimando lo que estos modelos son realmente capaces de hacer. Ptacek no niega su utilidad; al contrario, reconoce que son herramientas sorprendentes que transformarán muchos aspectos del desarrollo, pero su crítica va dirigida a quienes creen que la inteligencia artificial generativa ya puede reemplazar a un programador humano.

Para él, escribir código no es simplemente completar frases o generar funciones aisladas: es razonar sobre sistemas, manejar estados, entender arquitectura y mantener coherencia a lo largo del tiempo, tareas en las que, según su experiencia, los modelos actuales fallan estrepitosamente. Y, sin embargo, incluso en su escepticismo, hay un subtexto importante: la inteligencia artificial generativa no es inútil, simplemente aún no está lista. De nuevo, el error no está tanto en subestimarla… como en no proyectarla hacia lo que viene.

Mi experiencia con la inteligencia artificial generativa en el ámbito académico sigue un patrón muy similar. Cuando la intento utilizar como asistente para estructurar artículos académicos, su rendimiento es sorprendentemente bueno: formula hipótesis verosímiles, propone diseños metodológicos coherentes, redacta resúmenes claros y hasta sugiere discusiones y conclusiones con bastante fundamento. Pero en realidad, gran parte de todo eso está «en el aire», porque cuando se trata de recolectar datos reales, analizarlos rigurosamente o interpretar resultados empíricos, la herramienta se detiene en seco y no es capaz en absoluto de hacer el verdadero trabajo, la investigación como tal. Al menos por ahora, ni recopilar datos con garantías, ni analizarlos, ni nada de nada. Pero eso sí, cada vez que la pruebo de nuevo semanas o meses más tarde, observo una mejora tangible, como si la frontera de lo posible se desplazara sola, en silencio, mientras no miramos.

No podemos olvidar, además, que la inteligencia artificial generativa que hoy utilizamos tiene raíces técnicas muy claras: su arquitectura, desde el famoso paper «Attention is all you need«, está diseñada fundamentalmente para tareas como la traducción automática. En el fondo, su lógica básica sigue siendo «predecir la siguiente palabra», encontrar la secuencia lingüística más probable dada una entrada. Por brillante que esto sea para generar texto fluido y coherente, también impone limitaciones importantes cuando la tarea exige algo más que correlaciones léxicas: exige razonamiento, modelado causal, o comprensión profunda del contexto.

Es aquí donde empezamos a ver que, si bien los llamados «modelos de razonamiento» están intentando superar esa barrera, todavía estamos demasiado anclados en una lógica completamente lingüística. Incrementar la ventana de contexto ha sido una estrategia eficaz para mejorar las traducciones (del «palabra por palabra», al «frase completa», al «la totalidad del documento», y finalmente al «un montón de documentos de la misma temática»), la coherencia textual y la memoria a corto plazo, pero necesitamos proyectar ese concepto más allá del lenguaje. El reto ahora no es solo recordar más texto, sino construir modelos que entiendan sistemas complejos, manejen representaciones abstractas y puedan operar con datos estructurados, simulaciones o incluso entornos físicos. Extender el incremento de la ventana de contexto más allá del lenguaje. Sin ese salto conceptual, seguiremos teniendo sistemas que escriben muy bien… pero piensan más bien poco.

Esta dinámica se ha vuelto especialmente evidente en el mundo académico. En sus inicios, la inteligencia artificial generativa fue recibida con una mezcla de asombro y preocupación: ¿se usaría para fabricar papers falsos y saturar las revistas científicas con contenido basura? La respuesta inicial fue, efectivamente, sí: una oleada de papers generados de manera automática comenzó a llenar las bandejas de entrada de los editores, muchos de ellos plagados de errores, plagio y fórmulas vacías sin contenido real. El escándalo creció cuando algunos de esos textos lograron superar procesos de revisión por pares llevados a cabo de forma completamente superficial, y colarse en conferencias y revistas de dudosa reputación.

Pero el panorama está cambiando. En marzo de este año, la startup japonesa Sakana causó revuelo al anunciar que uno de sus modelos había conseguido que un paper generado por inteligencia artificial generativa pasase un proceso de revisión por pares riguroso. En realidad el asunto es más matizado y complejo de lo que parece, pero revela una tendencia clara: la calidad de los trabajos generados por estas herramientas está mejorando. Ya no hablamos solo de «spam académico», sino de borradores técnicamente sólidos que podrían, con intervención humana, convertirse en contribuciones legítimas.

Más aún, la inteligencia artificial generativa no solo se está usando para escribir artículos, sino también para revisarlos. Algunas revistas ya están experimentando con modelos que ayudan a los revisores a evaluar papers, identificar inconsistencias o señalar referencias relevantes. No estamos simplemente automatizando la redacción científica: estamos replanteando todo el ciclo editorial, desde la escritura hasta la evaluación y publicación.

La figura que emerge de todo esto no es tanto la del «investigador reemplazado», sino la del «centauro académico»: humanos que se apoyan en la inteligencia artificial generativa para extender sus capacidades, pero sin ceder el control ni la responsabilidad. Es un nuevo pacto entre el pensamiento crítico humano y la velocidad, memoria y síntesis de las máquinas. No se trata de renunciar al rigor, sino de apoyarse en herramientas que lo potencien.

En este contexto, el debate sobre la validez de la inteligencia artificial generativa en tareas intelectuales deja de ser binario: no se trata de «sirve o no sirve», sino de entender en qué punto de su evolución estamos, y cómo podemos canalizarla de forma ética y efectiva. Como en todas las disrupciones, el peor error es pensar que la tecnología se quedará donde está hoy, porque no lo hará, y lo sabemos. Juzgar a la inteligencia artificial generativa por sus limitaciones actuales es como juzgar un avión por su capacidad para recorrer la pista: inútil, miope y condenado a quedarse en tierra.


You can also read this article in English on my Medium page, «Beyond the finish line: generative AI’s unknown potential«

5 comentarios

  • #001
    Gorki - 3 junio 2025 - 14:09

    Creo que la comparación de la AI con el proceso de traducción automàtica, es muy didáctico, pues todos hemos tenido la oportunidad de ver como la traducción automática, pasaba de ser una torpe herramienta, que no era posible utilizar sin una intensa supervisión humana, a ser lo que es hoy, donde existen aparatos de bajo coste, que incluso hacen traducción simultánea de una calidad aceptable.

    Solo el tiempo dirá lo que la AI es capaz o no es capaz de hacer, Ahora estáa en pleno desarrollo, demos tiempo al tiempo.

    Responder
  • #002
    Xaquín - 3 junio 2025 - 15:15

    En cierto modo tocas el problema básico de la IH aplicada a la educación.

    El típico profesor que se conforma con que su alumnado recite de carrerilla (sea F1 o modo maratón) una lección, que tiene fijada con alfileres en su memoria RAM, y que va olvidar pasado el examen, por no ser capaz de dejarlo bien grabado en su ROM. Y si no la tiene ya medio oxidada, después de pasar parte del ciclo escolar.

    Y, para colmo, a eso le llaman adquirir conocimientos, en ves de adherir temporalmente una serie de datos, normalmente inconexos. Y acusando (más colmo aún) a cualquier metodología no chapatoria de atacar al conocimiento

    Y se quedan tan panchos. Y te insultan por pedir algo más de coherencia educativa, para que aprendan a organizar la entrada de datos, así como su almacenamiento bien ordenado, con los aditamentos necesarios para una salida eficiente, en el momento que se necesiten usarlos de nuevo.

    No sé porque insultamos a la preconcebida IA… que si va lenta, que si no vale, que será traicionera… cuando la mayoría de las IH no están cumpliendo con las prescripciones «que traen de fábrica». Sobre todo en su modelo HS. A eso precisamente le llamo yo mediocridad mental.

    Porque la evolución de la mente humana no difiere mucho de la que debe sufrir una IA (de verdad), en su mecanismo básico de ir subiendo escalones de mejora artificial. La ventaja para ellas es que no tendrán al lado a compañeros y compañeras, incluso compañeres, que le están frenando su evolución, por cualquier causa que se le haya metido en sus entretelas mentales : que si no es posible ese nueve estadio evolutivo, que si todos tenemos que evolucionar igual y pasar por el mismo aro, que si patatín y que si patatán… a seguir favoreciendo una extinción masiva, que, para colmo, tendrá causas no ajenas a nuestra propia naturaleza.

    Y, mientras, los insectos nos observan. ¿Podrán copiar algo bueno?

    Responder
  • #003
    Benji - 3 junio 2025 - 15:19

    100% con Gorki y Xaquín.

    Ahora mismo sigo sacudiendo la cabeza cuando leo las cosas que me trae Gemini a la mesa en programación, sobre todo comparado con Claude.

    Peeero esto ha ido mejorando poco a poco y ahora se puede ya usar un mínimo de Gemini incluso en razonamientos/pseudolenguaje complejos.

    Pero donde más me sorprende es que es mucho mejor traduciendo que DeepL o Google Translate porque es capaz de captar matices lingüísticos que los otros dos no. Incluso algunos dobles sentidos los pilla entre alemán y español (no sé si internamente pasa por el inglés)

    Responder
  • #004
    Buzzword - 3 junio 2025 - 16:56

    La mayoría de los LLM usan la arquitectura transformer autoregresiva, es decir predicen tokens de forma secuencial basándose en el contexto previo. Ayer mismo adjunté una respuesta de gepeto en la que nos confirmaba la inmensa cantidad de datos que se han usado en su entrenamiento. Lo cual nos hace pensar que exponencial de crecimiento es sigmoide, y que muchos de los benchmarks usados están contaminados al formar las preguntas en el corpus de entrenamiento. Es obvio como nos han demostrado con Deepseek que con lo que tenemos hoy en día se puede entrenar a un coste muy inferior a lo que se hacía hace dos años y que los trucos de razonamiento, encarecen hasta hacer los modelos, como O3, inviables económicamente, no parece una opción dejarles pensar…

    El enfoque de Mercury o Google para generación de texto parece que puede ir por los modelos de difusión, del mismo que dieron el salto en imagen de DALLE a DALLE2, o dieron el boom con SD. De momento sorprende su velocidad con métricas del mismo estilo. Por ejemplo Mercury habla de 1000 tokens/s, op generar código reduciendo el tiempo con calidad semejante Claude haiku 3.5 a una décima parte.

    Mi opinión es que los modelos actuales forman parte de una generación que usan más o menos los mismos algoritmos y los mismos datasets.. .desde hace ya MUCHOS AÑOS !!..

    https://deepmind.google/models/gemini-diffusion/

    Recordemos que «Attention is all your need» ya se nos queda viejo. Parece que el futuro viene de la mano de Gemini Diffusion

    Si tenemos un referente en todo esto y sabe de que es Yann Lecun

    https://www.youtube.com/watch?v=eyrDM3A_YFc

    «Ya no me interesan los LLMs… » que viene a decir eso en roman paladino que son una mierda… y digo yo pero es la mejor que tenemos disponible…

    Responder
    • Sebastian - 4 junio 2025 - 13:33

      Interesante artículo e interesante respuesta.

      Responder

Dejar un Comentario

Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades (astroturfing) o suplantando a otros comentaristas. Los comentarios que incumplan esas normas básicas serán eliminados.

 

XHTML: Puedes utilizar estas etiquetas: A ABBR ACRONYM B BLOCKQUOTE CITE CODE DEL EM I Q STRIKE STRONG IMG