Los grandes modelos de lenguaje parecen inteligentes porque hablan con fluidez, seguridad y a gran escala. Pero la fluidez no es comprensión, y la confianza no es percepción. Para entender la verdadera limitación de los sistemas de inteligencia artificial actuales, conviene volver a una idea con más de dos mil años de antigüedad.
En La República, Platón describe la alegoría de la caverna: unos prisioneros encadenados dentro de una cueva solo pueden ver sombras proyectadas en una pared. Al no haber visto nunca los objetos reales que proyectan esas sombras, confunden las apariencias con la realidad y se ven privados de experimentar el mundo real.
Los grandes modelos de lenguaje viven en una caverna muy parecida.
Los LLM no perciben el mundo: leen sobre él
Los LLM no ven, no oyen, no tocan ni interactúan con la realidad. Se entrenan casi exclusivamente con texto: libros, artículos, publicaciones, comentarios, transcripciones y fragmentos de expresión humana recopilados a lo largo de la historia y de internet. Ese texto es su único input. Su única “experiencia”.
Los LLM solo «ven» sombras: textos producidos por humanos que describen el mundo. Esos textos constituyen su universo completo. Todo lo que un LLM «sabe» sobre la realidad llega filtrado por el lenguaje, escrito por personas con distintos grados de inteligencia, honestidad, sesgo, conocimiento e intención.
El texto no es la realidad: es una representación humana de la realidad. Es mediado, incompleto, sesgado y enormemente heterogéneo, a menudo distorsionado. El lenguaje humano refleja opiniones, malentendidos, puntos ciegos culturales y falsedades directas. Los libros e internet contienen ideas extraordinarias, pero también teorías conspirativas, propaganda, pornografía, abuso y puro disparate. Cuando entrenamos LLM con «todo el texto», no les estamos dando acceso al mundo. Les estamos dando acceso a las sombras de la humanidad en la pared.
No se trata de una limitación menor. Es el fallo arquitectónico central de la inteligencia artificial actual.
Por qué la escala no resuelve el problema
La suposición dominante en la estrategia de inteligencia artificial ha sido que la escala lo arregla todo: más datos, modelos más grandes, más parámetros, más computación. Pero más sombras en la pared no equivalen a realidad.
Como los LLM se entrenan para predecir la palabra siguiente estadísticamente más probable, son excelentes produciendo lenguaje plausible, pero no comprendiendo causalidad, restricciones físicas o consecuencias en el mundo real. Por eso las alucinaciones no son un fallo que pueda parchearse, sino una limitación estructural.
Como Yann LeCun ya ha argumentado repetidamente, el lenguaje por sí solo no es una base suficiente para la inteligencia.
El giro hacia los world models
Por eso la atención se está desplazando cada vez más hacia los llamados world models: sistemas que construyen representaciones internas de cómo funcionan los entornos, aprenden de la interacción y simulan resultados antes de actuar.
A diferencia de los LLM, los world models no se limitan al texto. Pueden incorporar datos temporales, entradas de sensores, bucles de retroalimentación, datos de ERP, hojas de cálculo, simulaciones y las consecuencias de las acciones. En lugar de preguntar «¿cuál es la palabra siguiente más probable?», formulan una pregunta mucho más potente:
«¿qué pasará si hacemos esto?».
Cómo se ve esto en la práctica
Para los directivos, no se trata de un debate académico abstracto. Los modelos del mundo ya están apareciendo, a menudo sin ser etiquetados como tales, en ámbitos donde el lenguaje por sí solo es insuficiente.
- En cadenas de suministro y logística, un modelo de lenguaje puede resumir disrupciones o generar informes. Un world model puede simular cómo el cierre de un puerto, un aumento del precio del combustible o el fallo de un proveedor se propaga por la red, y probar respuestas alternativas antes de comprometer capital.
- En seguros y gestión de riesgos, los LLM pueden explicar pólizas o responder a preguntas de clientes. Los world models pueden aprender cómo evoluciona realmente el riesgo en el tiempo, simular eventos extremos y estimar pérdidas en cascada bajo distintos escenarios, algo que ningún sistema basado solo en texto puede hacer de forma fiable.
- En fabricación y operaciones, los gemelos digitales de fábricas son world models incipientes. No solo describen procesos; simulan cómo interactúan máquinas, materiales y tiempos, permitiendo predecir fallos, optimizar el rendimiento y probar cambios de manera virtual antes de tocar el sistema real.
En todos estos casos, el lenguaje es útil, pero insuficiente. Comprender exige un modelo de cómo se comporta el mundo, no solo de cómo la gente habla sobre él.
La arquitectura post-LLM
Esto no significa abandonar los modelos de lenguaje. Significa colocarlos en su lugar adecuado.
En la siguiente fase de la inteligencia artificial,
- los LLM se convierten en interfaces, copilotos y traductores.
- Los world models aportan anclaje, predicción y planificación.
- El lenguaje se combina con sistemas que aprenden de la realidad misma.
En la alegoría de Platón, los prisioneros no se liberan estudiando las sombras con más atención: se liberan girándose para afrontar la fuente de esas sombras y, finalmente, el mundo fuera de la caverna.
La IA se acerca a un momento similar.
Las organizaciones que lo entiendan pronto dejarán de confundir el lenguaje fluido con la comprensión y empezarán a invertir en arquitecturas que modelan su propia realidad. Esas empresas no construirán solo una IA que hable de manera convincente sobre el mundo: construirán una IA que realmente entiende cómo funciona.
¿Entenderá esto tu empresa? ¿Será capaz de construir su propio world model?
(This article was previously published on Fast Company)


Añadir que, evolutivamente, el world-model llegó mucho antes que el LLM, estando el primero en todos los cerebros (probablemente hasta en insectos) y el segundo prácticamente solo en los humanos.