El mundo por dentro: por qué los world models están a punto de convertirse en el eje de la próxima arquitectura de la inteligencia artificial

IMAGE: A square digital illustration showing a blurred cloud of floating letters on the left transforming, through a bright arrow, into a detailed globe on the right surrounded by network lines, a robotic arm, a satellite, and a small autonomous vehicle—symbolizing the shift from language-based AI to world-simulating models

Lo más revelador de ese titular, «Ex-Google DeepMind researchers raising $100 million to build ‘world models’«, no es la cifra ni el glamour del capital de riesgo: es la admisión implícita de algo que llevaba tiempo gestándose en los laboratorios y que ahora salta al mercado: investigadores con experiencia en modelado del mundo, los que han intentado enseñar a las máquinas a simular realidades, están convencidos que, como llevo tiempo comentando, el próximo salto no vendrá de escalar más LLMs, sino de diseñar modelos capaces de mantener una representación interna coherente y manipulable del mundo.

Pero empecemos por el principio: ¿qué es un world model, o modelo del mundo? Imagina una mente mínima que no se limita a repetir lo que leyó, sino que construye un simulador interno. Ese simulador recibe sensaciones (imágenes, sensores, texto, interacciones), aprende reglas implícitas de física, causalidad y agencia, y puede ejecutar «pensamientos contrafactuales»: si empujo el vaso, ¿se rompe?, si acelero aquí, ¿pierdo el control? Un modelo del mundo no es solamente una función que predice la siguiente palabra; es una máquina que puede generar futuros posibles y evaluar acciones en esos futuros, dentro de una representación compacta y diferenciable. Los primeros trabajos académicos que formalizaron esta idea no son nuevos: el artículo de Ha y Schmidhuber ya exploró en 2018 cómo entrenar modelos generativos del entorno para luego aprender políticas en el «sueño» que el modelo genera.

La historia técnica que nos trajo hasta aquí es fácil de resumir en dos movimientos. Primero, los modelos del mundo conceptuales y demostrativos (como los de Ha & Schmidhuber), que enseñaron la viabilidad de aprender una dinámica latente y usarla para entrenar agentes. Segundo, la serie de avances que mostraron que, con suficiente ingeniería, esos modelos pueden competir en benchmarks complejos: MuZero aprendió a planificar sin conocer las reglas de los juegos, aprendiendo un modelo que es útil para búsqueda y control, y Dreamer / Dreamer V2 demostraron que es posible aprender comportamientos completos dentro de un mundo latente aprendido, alcanzando niveles humanos en Atari. Es decir: simulación interna + planificación = capacidades que los LLMs, entrenados sólo sobre texto, no pueden replicar.

¿Por qué importa este desplazamiento de paradigma? Porque los LLMs dominan hoy por una razón obvia: son increíblemente buenos en tareas lingüísticas y, sobre todo, porque su negocio es simple de capitalizar: datos masivos + modelos grandes = productos conversacionales y APIs. Pero esa ecuación tiene limites prácticos, energéticos y conceptuales: los LLMs «ven sombras», textos que describen el mundo, y no la dinámica del mundo mismo, por eso fallan y «alucinan» en razonamiento físico, persistencia de objetos, modelado de agentes y planes a largo plazo. En contraste, un modelo del mundo aspira a entender cómo cambia el mundo cuando actuamos en él, y por tanto es la herramienta natural para robótica, simulación, planificación estratégica y agentes autónomos. Si la inteligencia artificial del futuro ha de tomar decisiones seguras en el mundo real, necesitará una representación que capture continuidad, causalidad y la relación entre acción y resultado.

Por supuesto, eso no convierte a los modelos del mundo en una panacea. La arquitectura que propone la industria es híbrida: la fluidez y el conocimiento codificado en los LLMs seguirá siendo útil (lenguaje, explicación, interfaz), pero la centralidad de la inteligencia puede desplazarse hacia modelos que simulan y planifican. En términos industriales, la diferencia es radical: pasaríamos de una infraestructura dominada por entrenamientos de LLMs (centros de datos, enormes datasets de texto) a una arquitectura en la que la propiedad de los entornos simulados, de los sensores y de los datasets dinámicos (y la capacidad de integrarlos en plataformas de simulación en la nube) se convertirá en un activo clave. Es la tesis que ya defendí sobre por qué los modelos del mundo acabarán siendo una capacidad de plataforma más que una superpotencia corporativa aislada.

¿Qué significa la aparición de equipos como los ex-DeepMind y startups como Embo que recogen rondas millonarias? Primero, que la comunidad inversora percibe, con razón, una oportunidad de mercado: hay clientes reales en robótica, simulación urbana, logística y diseño de productos que necesitan modelos que predigan consecuencias, no solo que agreguen texto bonito. Segundo, que la investigación aplicada ha alcanzado una masa crítica: los laboratorios han probado que la idea funciona en dominios complejos y ahora hay presión por llevarla a sistemas industriales con latencias, integraciones con sensores y garantías de seguridad. Pero también significa riesgo de narrativa: la etiqueta «ex-DeepMind» vende confianza, y a veces la financiación premia pedigree y promesa más que productos validados; conviene ser escépticos y exigir resultados.

Técnicamente, el reto es enorme y fascinante: cómo construir representaciones latentes que sean a la vez compactas, interpretables y útiles para planificación; cómo conectar visión, lenguaje y acción; cómo entrenar modelos que generalicen fuera del distribuidor de entrenamiento sin colapsar ante la complejidad del mundo real; cómo integrar aprendizaje por modelado con búsqueda (lookahead) eficiente. Los avances de MuZero y de Dreamer muestran caminos, pero trasladarlos a entornos físicos, con ruido y costes reales no va a ser para nada trivial.

En términos estratégicos y sociales, el cambio también plantea preguntas: si las plataformas de nube controlan las simulaciones y los datasets sensoriales, ¿quién tiene la ventaja competitiva? ¿Las grandes nubes, las empresas con flotas de robots, o las plataformas abiertas que permitan a terceros construir y validar modelos del mundo? Mi apuesta, coherente con lo que he defendido antes, es que los modelos del mundo se convertirán en una capacidad de plataforma, en una capa técnica que cualquiera podrá integrar, y no en una superpotencia monopolística exclusiva de quien controle más GPUs. Eso no elimina la competencia por talento y capital, pero atenúa la ventaja relativa de la pura escala de parámetros frente a la calidad y diversidad de las experiencias entrenadas. Y por supuesto, permite potencialmente generar ventajas competitivas imparables e incrementales, capaces de dar lugar a auténticos monopolios naturales.

Esto cambia la conversación sobre riesgos y gobernanza: un modelo del mundo que simula escenarios futuros es extraordinariamente poderoso, para bien y para mal: puede optimizar operaciones, prever fallos, diseñar medicamentos… pero también puede generar simulaciones malintencionadas o exagerar riesgos cuando se usa sin controles. La gobernanza debe avanzar al ritmo del desarrollo técnico: auditorías, datasets de calidad y verdaderamente representativos, métricas de robustez y, sobre todo, un debate público sobre qué simulaciones deben permitirse y cuáles requieren supervisión.

El movimiento no es un simple rebautizo académico, es un cambio de pregunta: ya no buscamos sólo qué puede decir la inteligencia artificial, ahora buscamos qué puede hacer en el mundo y cómo imagina los efectos de sus acciones. Si Embo y otras iniciativas confirman que esa imaginación computacional funciona en dominios reales, estaremos ante un reequilibrio de poder tecnológico y una nueva arquitectura cuya pieza central será la capacidad de modelar, simular y planificar. El ecosistema de la inteligencia artificial lleva meses anunciando que la conversación ha cambiado. Ahora los que tienen la chequera empiezan a decirlo en voz alta. Eso obliga a empresas, reguladores y ciudadanos a repensar no solo productos, sino también responsabilidades. Y sobre todo, nos plantea qué tipo de cosas vamos a poder hacer (o van a poder hacer aquellos que tengan acceso) con esas herramientas.

This article is openly available in English on Medium, «LLMs see shadows. World models see reality«

#001
D.M.G. - 6 marzo 2026 - 09:01
Ojalá, sinceramente, pero, aunque el salto técnico es real y emocionante, la idea de que esto «reequilibrará el poder» es, posiblemente, una expresión de deseo. Si los LLMs fueron la conquista de la información, los world models son la conquista de la causalidad. Y en el capitalismo tecnológico, quien posee el motor de causalidad, posee las reglas del juego.
Estas startups de «ex-DeepMind», como tantas otras con buenas ideas, creo que simplemente están construyendo el próximo componente que Microsoft o Google comprarán por 2.000 millones para cerrar el círculo… aunque no lo sepan o quieran (desgraciadamente, en estas situaciones, se puede maniobrar de muchas maneras. Algunas son realmente asfixiantes…).
El artículo sugiere que los modelos del mundo serán una «capacidad de plataforma» (como el SQL o el HTTP). Pero hay una diferencia crítica: el lenguaje es público, la realidad física es privada. Los world models de alto rendimiento requieren telemetría en tiempo real, datos de sensores de flotas de robots, logística propietaria y vídeos de alta resolución…
Google (Waymo), Amazon (Zoox/Almacenes) y Tesla tienen el monopolio de la «experiencia física». Un modelo del mundo «universal» de código abierto siempre será inferior a uno alimentado por billones de horas de conducción o manipulación robótica propietaria. No será una utilidad pública, será un servicio de suscripción donde pagas por usar la «física» de otro.
En esa «capacidad de simular» el problema es que no existe un «mundo» único para modelar. Las reglas de un simulador para descubrimiento de fármacos son radicalmente distintas a las de la logística de última milla. Los grandes proveedores (Azure, AWS) no ofrecerán un World Model universal. Ofrecerán «Instancias de Mundo» pre-entrenadas. Si quieres que tu IA opere en un almacén, deberás pasar por el aro del modelo de Amazon. Esto crea un vendor lock-in físico: si entrenas a tu agente en la «Física de Microsoft», mudar tu empresa a otra nube significaría que tus robots tendrían que «volver a aprender a caminar».
El artículo menciona a Ha y Schmidhuber y el concepto de entrenar agentes en el «sueño» (la simulación interna), pero ejecutar una simulación latente continua es computacionalmente mucho más pesado que una inferencia de texto. Al ser modelos que requieren una planificación constante (imaginar mil futuros antes de mover un brazo robótico), la dependencia de la infraestructura de cómputo (GPUs/TPUs) se vuelve estructural, no opcional. Esto no atenúa la ventaja de la escala, la exacerba. Es lo de siempre, solo quienes posean el silicio podrán permitirse agentes que «piensen» en bucles de simulación profundos.
En definitiva, pienso que los grandes proveedores usarán la «seguridad» como excusa para cerrar sus modelos. Dirán que los modelos del mundo son «tecnología de doble uso» demasiado peligrosa para ser abierta. Bajo el pretexto de evitar simulaciones malintencionadas, crearán jardines vallados donde solo las empresas con certificación (y capital) podrán operar.
Y ya no quiero ni pensar cuando esta arquitectura sea ofrecida como modelo de gobernanza. Si pasamos de una IA que «recomienda textos» a una que «modela consecuencias», la gobernanza deja de ser un ejercicio de leyes escritas para convertirse en un ejercicio de simulación predictiva. Entramos en el terreno de lo que algunos teóricos llaman la «Algocracia» o el gobierno por simulación. Aquí es donde las maniobras estratégicas de los grandes proveedores se vuelven verdaderamente inquietantes…
Responder
#002
D. FALKEN - 6 marzo 2026 - 11:50
Estupendo acercamiento a los modelos del mundo. Con el éxito que esta teniendo la estrategia de modelos de pesos abiertos chinos y su creciente dominio de la robotización, nos puede ir situando sobre la pista de por donde van a venir los tiros. Frente a la tendencia occidental de seguir la línea de menor resistencia que es la inversión bruta, relativamente carente de planificación estratégica y orientado a la mercantilizacion cortoplacista, China cuenta con la masa crítica de factores que le pueden hacer llegar antes y en mejor posición.
Se abre un interesante nuevo escenario.
Responder
#003
Salva - 6 marzo 2026 - 12:04
Un modelo de mundo es lo que está haciendo Tesla con las cámaras de los coches. Hacer un 3d en tiempo real y aplicar una lógica de conducción. ¿no?
Responder
#004
D.M.G. - 6 marzo 2026 - 12:10
Vale, voy más allá, y, si acaso, lo cortas…
Estamos pasando de lo «panóptico» (donde todo se ve) al «simulacro» (donde todo se pre-decide).
Los World Models son el siguiente paso complementario a la IA actual y, lo que creo que muchos no han visto, es que los grandes proveedores ya han estudiado esto estratégicamente: no solo capturan datos, están capturando el margen de rediseño de nuestra sociedad.
Es decir, no solo han recabado ingentes cantidades de datos para capturar el mercado de la robótica, sino el motor mismo de la toma de decisiones sociales, convirtiendo la política en una rama de la ingeniería de sistemas optimizada por sus propios servidores.
Es una distopía muy limpia y eficiente, lo cual la hace doblemente peligrosa.
A mi juicio, dentro de esta gran complejidad estructural en la que se han convertido nuestros sistemas organizativos, la verdadera soberanía ya se está desplazando. La lucha política decisiva, ahora, creo que debe orientarse hacia el momento fundacional del diseño.
En otras palabras, ya no es tanto el color violeta, rojo, azul, naranja o verde-pera-pálido-manzana, es exigir un diseño arquitectónico reversible que permita que un servicio o un sistema pueda ser interrumpido y auditado sin que colapse. Es, en definitiva, exigir desde la ciudadanía que la rama tecnológica, la que ya configura y regula nuestros sistemas de vida, sea una pata más dentro de la arquitectura del estado (siendo reconfigurado en cuatro, no tres, cuatro poderes independientes y esenciales). Así de claro y urgente lo veo… (llámame loco, no importa XD).
Pero, siendo realistas, lo que hace que esta conclusión sea tan difícil de implementar es que los grandes proveedores ya han «colonizado» el imaginario del regulador. El regulador suele pedir «seguridad» o «ética», pero rara vez pide «soberanía de diseño».
Si no se interviene en el momento del diseño de estos modelos del mundo, la política futura se reducirá a una simple «administración de lo ya decidido» por la arquitectura técnica.
Responder
#005
Xaquín - 6 marzo 2026 - 16:21
«nos plantea qué tipo de cosas vamos a poder hacer (o van a poder hacer aquellos que tengan acceso) con esas herramientas» (Edans).
Aprovechando para reflexionar por la periferia… con sustituir acceso por Poder (en esencia viene a decir lo mismo) y aplicarlo al «modelo de mundo» más antiguo y natural : una «simple» IH.
Al fin, ¿veremos cómo una IA será capaz de superar esa mediocridad, que la IH no consigue?
Porque el acceso a la IH, para poder manipularla, sigue siendo fundamental, con versiones de IA mediocres o superlativas. Y porque, lo peor de todo, es que auténticas mediocridades de IH (mediocridad global), «pueden» generar una IA con capacidad de evolucionar, incluso globalmente, más rápidamente que la IH generadora.
Responder