Durante los dos últimos años, hablar de estrategia en inteligencia artificial ha significado prácticamente lo mismo en todas partes: elegir un gran modelo de lenguaje, conectarlo a tus flujos de trabajo y empezar a experimentar con prompts. Esa fase está llegando a su fin.
No porque los modelos de lenguaje no sean útiles, que lo son, con todas sus limitaciones evidentes, sino porque se están convirtiendo rápidamente en commodities. Cuando todo el mundo tiene acceso a modelos muy similares, entrenados con datos muy parecidos, la pregunta deja de ser quién tiene la mejor inteligencia artificial y pasa a ser quién entiende mejor su propio mundo. Ahí es donde entran los world models.
De la inteligencia alquilada a la comprensión en propiedad
Los grandes modelos de lenguaje parecen poderosos, pero en el fondo son inteligencia alquilada. Pagas una cuota mensual a OpenAI, Anthropic, Google u otra gran tecnológica, accedes a sus modelos vía API, los ajustas ligeramente y los aplicas a tareas genéricas: resumir, redactar, buscar, asistir. Hacen que las organizaciones sean más eficientes, pero no las hacen sustancialmente diferentes.
Un world model es algo completamente distinto: es un sistema interno que representa cómo se comporta realmente el entorno de una empresa (sus clientes, operaciones, restricciones, riesgos y bucles de retroalimentación, etc.) y utiliza esa representación para predecir resultados, poner a prueba decisiones y aprender de la experiencia.
La diferencia es fundamental. Puedes alquilar fluidez, pero no puedes alquilar comprensión.
Qué significa realmente un world model para una empresa
A pesar de su origen académico, los world models no son juguetes teóricos. Los directivos ya confían en versiones rudimentarias de ellos todos los días: simulaciones de cadena de suministro, sistemas de previsión de demanda, modelos de riesgo y precios, gemelos digitales de fábricas, redes o ciudades.
Los gemelos digitales, en particular, son world models tempranos e incompletos: estáticos, caros y a menudo frágiles, pero conceptualmente relevantes.
Lo que cambia con la inteligencia artificial no es la existencia de estos modelos, sino su naturaleza. En lugar de ser estáticos y actualizados manualmente, los world models impulsados por inteligencia artificial pueden ser:
- Adaptativos, aprendiendo continuamente de nuevos datos
- Probabilísticos, en lugar de deterministas
- Causales, no solo descriptivos
- Orientados a la acción, capaces de simular escenarios del tipo «qué pasa si…»
Aquí es donde el aprendizaje por refuerzo, la simulación y el aprendizaje multimodal empiezan a importar mucho más que la ingeniería de prompts.
Un ejemplo concreto: logística y cadenas de suministro
Pensemos en la logística global, un sector que ya opera con márgenes estrechos, tiempos ajustados y disrupciones constantes.
Un modelo de lenguaje puede resumir informes de envíos, responder preguntas sobre retrasos o redactar comunicaciones a clientes. Un world model puede hacer algo mucho más valioso: puede simular cómo el cierre de un puerto en Asia afecta a los niveles de inventario en Europa, cómo las fluctuaciones del precio del combustible se trasladan a los costes de transporte, cómo los fenómenos meteorológicos alteran los plazos de entrega y cómo decisiones alternativas de rutas cambian los resultados con semanas de antelación. En otras palabras, puede razonar sobre el sistema, no solo describirlo.
Por eso empresas como Amazon han invertido intensamente en entornos internos de simulación y modelos de decisión, en lugar de limitarse a herramientas de inteligencia artificial genéricas.
En logística, la ventaja competitiva no proviene de hablar mejor sobre la cadena de suministro, sino de anticiparla mejor.
Por qué construir un world model es difícil (y por qué esa es la cuestión)
Si todo esto suena complejo, es porque lo es. Construir un world model útil no consiste en comprar software o contratar a unos cuantos ingenieros de prompts. Requiere capacidades que muchas organizaciones han pospuesto desarrollar.
Como mínimo, las empresas necesitan:
- Datos de alta calidad y bien instrumentados, no solo grandes volúmenes
- Definiciones claras de resultados, no simples métricas de vanidad
- Bucles de retroalimentación (importantísimo) que conecten decisiones con consecuencias reales
- Alineación transversal, porque ningún departamento «posee» la realidad
- Y sobre todo, tiempo y paciencia, ya que los modelos del mundo mejoran con iteración, no con demostraciones espectaculares.
Precisamente por eso la mayoría de las compañías no lo hará, y por eso precisamente quienes lo hagan lograrán distanciarse. La parte más difícil de la inteligencia artificial no son los modelos, sino los sistemas y los incentivos que los rodean.
Por qué los LLM por sí solos no bastan
Los modelos de lenguaje siguen siendo valiosos, pero en un papel concreto. Son excelentes interfaces entre humanos y máquinas. Explican, traducen, resumen y comunican. Lo que no hacen bien es razonar sobre cómo funciona el mundo.
Los LLM aprenden de texto, que es una representación indirecta, sesgada e incompleta de la realidad. Reflejan cómo las personas hablan sobre los sistemas, no cómo esos sistemas se comportan. Por eso las alucinaciones no son un accidente, sino una limitación estructural. Como ha señalado repetidamente Yann LeCun, el lenguaje por sí solo no es un sustrato suficiente para la inteligencia.
En las arquitecturas que importarán en el futuro, los LLM acompañarán a los modelos del mundo, no los sustituirán.
El giro estratégico que los directivos deberían hacer ahora
La decisión más importante que pueden tomar hoy los líderes no es qué modelo elegir, sino qué partes de su realidad quieren que las máquinas comprendan.
Eso implica formular preguntas diferentes: ¿Dónde fallan sistemáticamente nuestras decisiones? ¿Qué resultados importan pero no están bien medidos? ¿Qué sistemas se comportan de formas que no entendemos del todo? ¿Dónde superaría la simulación a la intuición?
Son preguntas menos vistosas que simplemente lanzar un chatbot. Pero mucho más trascendentes.
Las empresas que ganen modelarán su propia realidad
Los grandes modelos de lenguaje igualan el terreno de juego. Todo el mundo accede a capacidades impresionantes casi al mismo tiempo. Los world models lo vuelven a inclinar.
En la próxima década, la ventaja competitiva pertenecerá a las organizaciones capaces de codificar su comprensión del mundo, de «su mundo», en sistemas que aprendan, se adapten y mejoren. No porque hablen mejor, sino porque entienden mejor.
La inteligencia artificial no sustituirá a la estrategia. Pero la estrategia pertenecerá cada vez más a quienes sean capaces de modelar la realidad lo suficientemente bien como para explorarla antes de actuar.
Todas las empresas necesitarán su propio world model. La única pregunta abierta es quién empieza a construir el suyo primero.
(This article was previously published on Fast Company)


La pregunta es : ¿Qué interes tiene el CEO de una empresa en implementar un «world model» que le sustituya?
Por que por lo que veo el trabajo del «worl model» sería justo el que hace el CEO.
Primero un preliminar: Nada tienen que ver los LLM con estos modelos. Los LLMs basan su predicción en el siguiente token. (Nota) ¿Si acaso como colateral el poder usar modelos para crear dataset? Igual mejorarían pero no son el fin de los modelos del mundo… los secunciadores de token correlados, no son una buena solución para muchos problemas, y en concreto para simular el mundo, sin embargo si lo son para simular conversaciones.
Creo que las palabras son importantes y ahora se ha puesto de moda esto de «modelo del mundo» ( no es necesario utilizar el anglicismo). Personalmente me gusta más el término «simulador».
Cuando un astrofísico hace estudios de cosmología usa simuladores que son «gemelitos» digitales mucho más sencillos en número de estrellas o galaxias, y luego se les introduce las leyes de la física y condiciones iniciales, para ver como funciona el modelo cosmológico. La razón es reducir la complejidad de cálculo.
Algo que también podemos ver en simuladores de videojuegos:
–> ajedrez, coches, go,… Aquí el mundo a simular es mucho más sencillo y no es necesaria la simplificación.
Donde si es necesaria la simplificación es en modelos que imiten la Tierra y poder predecir su evolución (earth-2) o en generación de video coherente con la física que estamos acostumbrados a ver,
Simuladores del mundo -> se usan ya que sino la potencia de cálculo sería una locura.
https://www.nvidia.com/es-es/high-performance-computing/earth-2/
Para simular procesos insdustriales NVIDIA una vez más es un referente:
https://www.nvidia.com/es-es/omniverse/solutions/digital-twins/
Estos simuladores si que tienen aplicación práctica en la IA generativa, no podía ser de otra manera…
https://arxiv.org/abs/2507.06484
* 3D-Generalist: Self-Improving Vision-Language-Action Models for Crafting 3D Worlds
Por supuesto para entrenar robots
* https://techcrunch.com/2025/08/11/nvidia-unveils-new-cosmos-world-models-other-infra-for-physical-applications-of-ai/
O hacer video generativo consistente
* https://research.nvidia.com/labs/toronto-ai/GEN3C/
Y claro luego están los productos comerciales que solamente nos muestran los resultados como Seedance 2.0 o Veo, que claramente tienen su algoritmo de simulación del mundo similar al mostrado en el paper anterior
* seedance2.ai
(Nota): SOBRE LORITOS Y SUS ALUCINACIONES
Las alucinaciones se producen porque el siguiente token SIEMPRE es una aproximación estadística a la entrada que hemos escrito como prompt.
Este comportamiento está intrínsecamente ligado a la forma en que los LLMs procesan y generan texto a través de «tokens».
¿Qué son los tokens?
Unidades de texto: Un token es la unidad básica de procesamiento, que puede ser una palabra, parte de una palabra (subpalabra) o incluso un solo carácter.
Representación numérica: Los LLMs no leen palabras directamente; los tokens se convierten en identificadores numéricos que el modelo procesa.
Proporción: En promedio, 1 token equivale aproximadamente a 4 caracteres o 0.75 palabras en inglés (1000 tokens ≈ 750 palabras).
La Alucinación y la Predicción de Tokens
Modelos Probabilísticos: Los LLMs no son bases de datos de hechos, sino motores probabilísticos que predicen el «próximo token» más probable basándose en la secuencia anterior.
Falta de conocimiento real: Cuando el modelo no tiene información precisa en sus datos de entrenamiento, prioriza la fluidez lingüística y la probabilidad estadística sobre la veracidad factual, lo que resulta en una alucinación.
Entropía y Confianza: A menudo, las alucinaciones ocurren cuando el modelo está menos seguro de la siguiente palabra (alta entropía). En lugar de detenerse, «inventa» la continuación más plausible lingüísticamente.
Los parámetros de temperatura y top-k son fundamentales en la gestión de alucinaciones en los Modelos de Lenguaje Grande (LLMs). Controlan la aleatoriedad y la diversidad de la respuesta, donde configuraciones más «creativas» (valores altos) aumentan el riesgo de invención de hechos, mientras que configuraciones «conservadoras» (valores bajos) promueven la precisión factual.
Aquí está el desglose detallado de su impacto en las alucinaciones:
1. Temperatura.
La temperatura ajusta la probabilidad de los tokens (palabras/partes de palabras) seleccionados por el modelo.
Temperatura Baja: El modelo es más determinista, seleccionando casi siempre el token más probable. Esto minimiza las alucinaciones, siendo ideal para tareas técnicas, resúmenes precisos o análisis de datos.
Temperatura Alta: El modelo se vuelve más creativo y diverso, pero aumenta significativamente el riesgo de inventar información (alucinaciones), ya que da más peso a palabras menos probables.
—-> Comportamiento casi determinista, la respuesta más probable siempre es seleccionada.
2. Top-k y Alucinaciones
Top-k limita el muestreo a los tokens más probables, eliminando la «cola larga» de posibilidades poco probables.
Top-k Bajo ( o valores bajos): Restringe el modelo a unos pocos candidatos, lo que resulta en respuestas más seguras y menos alucinaciones.
Top-k Alto ( o más): Permite al modelo considerar más tokens, aumentando la diversidad, pero también la posibilidad de elegir una secuencia incoherente o falsa.
Buen resumen. Si ser del área de TI por ahí empecé yo mi acercamiento a los llm. Contribuciones como estas son necesarias para que muchos usuarios básicos tengan un marco conceptual de referencia para saber con que estan tratando. Sobre todo en el entorno más inmediato… aunque habitualmente es dificil sacar a la gente de la auto complacencia de la ignorancia.
Si a alguien le sirve y quiere entender estos conceptos, recomiendo en-ca-re-ci-da-men-te el libro: «Prompt Engineering for LLMs: The Art and Science of Building Large Language Model-Based Applications» (John Berryman, Albert Ziegler), Oreilly. [Inglés, 282 páginas]
Para mí fue el mejor libro y el que me ofreció más y mejor información sobre cómo se entrenan realmente los LLM. Y en su momento esto fue crucial para entender cómo diseñar mejores prompts. A partir de que entendí los conceptos que BUZZWORD explica, todo se me hizo más simple de manejar y de llevar a cabo.
Lo encuentran …por ahí…
Muchas gracias, Javier. Justamente, luego de leer el muy interesante aporte de Buzzword, me estaba preguntando qué debería uno leer para enterarse a fondo de todo esto. Si alguien sabe de otros libros sobre estos temas que un principiante debería necesariamente leer (en español, inglés o alemán), le agradecería mucho que los mencionara.
No acabo de entender después de leer el artículo la diferencia entre un World Model y un CRM…?
Quizá es que un CRM es solo para la gestión del cliente, mientras que el Word Model es para la logística externa e interna de la empresa u organización, si…?
https://www.nvidia.com/en-us/glossary/world-models/
Los modelos de mundo son redes neuronales que comprenden la dinámica del mundo real, incluyendo la física y las propiedades espaciales. Pueden usar datos de entrada, como texto, imágenes, videos y movimiento, para generar videos que simulan entornos físicos realistas. Los desarrolladores de IA física usan modelos de mundo para generar datos sintéticos personalizados o modelos de IA posteriores para entrenar robots y vehículos autónomos .
Un CRM (Customer Relationship Management o Gestión de las Relaciones con el Cliente) es una plataforma tecnológica y estrategia empresarial para administrar todas las interacciones de una empresa con clientes y potenciales clientes. Centraliza información en la nube para mejorar ventas, marketing y atención al cliente, impulsando la fidelización y rentabilidad.
Lo que el artículo hace es ampliar el significado de “world model” para aplicarlo a la gestión empresarial. Un world model corporativo sería un sistema interno que representa cómo se comporta el mundo de una empresa (clientes, operaciones, riesgos, feedback).
El artículo habla de simulación de comportamiento empresarial para anticipar decisiones: “qué pasa si…”.
Para tener un simulador empresarial tienes que integrar:
* Datos del CRM
* Datos operativos
* Datos financieros
* Datos de mercado
Y construyes un sistema o modelo que pueda simular escenarios empresariales completos, entonces SI te acercas mucho a un modelo de mundo empresarial:
—> un sistema que entiende las dinámicas internas y externas de la organización, y puedes aplicar escenarios de simulación.
No es sencillo, y no está en la mano, de cualquiera. Cuando Enrique habla de inteligencia alquilada (en los LLMs de suscripción) hay que entender que esa realidad «sencilla» es así y solo está en la mano de esas BigTechs. La premisa que «Todas las empresas van a necesitar su propio modelo del mundo» , la realidad es que muy poquitas lo van a poder tener, y es una distorsión más del mercado. La IA(modelos del mundo) va a ser una vez más discriminatoria. No veo a empresas (en su sano juicio) cediendo datos confidenciales a unas pocas empresas que construyan modelos del mundo, para luego reutilizar ese know-how con sus competidores. Pero si algo que es infinita es la estupidez humana, y eso incluye la empresarial. Pero empresas como Amazon(la citada) si puede sacar beneficio de usar inteligencia en su mercado…
No es que se haya «puesto de moda», es que estoy trabajando mucho con ellos en TuringDream y me sale escribir sobre ello contando lo poco que puedo contar (y por qué no, calentando el tema). Sobre el inglés, a mí no me sale castellanizar un término hasta que tengo claro cuál es la traducción que la comunidad va a escoger de él, por eso mantengo el término en inglés. Pero básicamente, de acuerdo contigo: lo importante es pensar qué pasa cuando en lugar de tener modelos que simplemente se alimentan de texto, tengamos modelos que son capaces de construir modelos basándose en las señales que son capaces de captar, sean datos, sensores, variables, etc. Ahí es donde creo que las cosas van a cambiar de verdad, y eso es lo que creo que las compañías van a tener que construir. Y como dices, no todas podrán hacerlo…
Lo realmente innovador es aplicar lo de «modelo del mundo» a un modelo del mundo empresarial, hasta ahora el término se había oido para imitar el mundo físico y sus leyes, no el mundo del «monopoly». No sé si eres el primero en profundizar en esta idea, pero de los primeros seguro.
Tener un simulador empresarial, creo que es un concepto innovador y es la primera vez que lo he leído, tan en serio, y es como los «juegos de guerra» de la película de los 80s.
Personalmente me gusta el término «simulador». Pero muy interesante !!
PS: Y lo de Tau es otro caso de uso similar…
«capaces de construir modelos basándose en las señales que son capaces de captar, sean datos, sensores, variables, etc.» (EDans).
Esto ya me suena más a un acercamiento táctico a una IH… porque viene siendo la base de una organización mental humana (no mediocre) de la información recibida.