A la industria de la inteligencia artificial le encanta la inflación de tokens. A tu empresa no debería…

IMAGE: A split scene shows, on one side, a chaotic flood of glowing tokens and industrial AI systems, and on the other, a calm workspace where a person carefully builds a structured stack of relevant information, symbolizing efficient AI use

La industria de la inteligencia artificial tiene un problema de adicción silencioso: está enganchada a los tokens.

Cada nueva generación de inteligencia artificial agéntica parece asumir que la respuesta a la complejidad es lanzar más contexto al modelo, mantener historiales más largos, generar más llamadas, iterar sobre más herramientas y dejar que el contador de tokens se dispare.

El auge de los sistemas agénticos, y ahora de proyectos como OpenClaw, refuerza aún más esa tentación: en cuanto das más autonomía a los modelos, no solo consumen tokens para responder preguntas. Los consumen para planificar, reflexionar, reintentar, resumir, llamar a herramientas, inspeccionar resultados y mantenerse en el camino. OpenClaw se define a sí mismo como una puerta de enlace agent-native con sesiones, memoria, uso de herramientas y enrutamiento multiagente a través de plataformas de mensajería, lo que deja claro hacia dónde vamos: más autonomía, más orquestación y, salvo que alguien lo corrija, mucho más consumo de tokens.

Esa trayectoria entusiasma a casi todos los que venden la infraestructura. Si la facturación se basa en tokens, más consumo significa más crecimiento. Si vendes el cómputo que hay detrás de esos tokens, mejor todavía. Google señaló en sus resultados de octubre de 2025 que estaba procesando más de 1.3 cuatrillones de tokens mensuales en sus plataformas, más de veinte veces el volumen de un año antes. NVIDIA, por su parte, está apostando claramente por la economía de la inferencia y la inteligencia artificial agéntica, subrayando tanto el aumento de la demanda como la oportunidad de vender cada vez más infraestructura.

Pero las empresas que compran inteligencia artificial deberían verlo de otra manera. Porque, desde el punto de vista del cliente, el crecimiento explosivo del consumo de tokens no es necesariamente una señal de inteligencia. En muchos casos, es una señal de ineficiencia.

Más tokens no equivalen a más inteligencia

El relato dominante en la industria trata el consumo de tokens como si fuera un indicador de progreso. Ventanas de contexto más grandes, más trazas de razonamiento, más bucles de agentes, más memoria, más recuperación, más interacciones. Todo suena impresionante.

Pero un sistema que necesita ingerir y regenerar enormes cantidades de contexto en cada paso no es necesariamente más inteligente. Puede simplemente estar mal diseñado.

La propia guía de ingeniería de Anthropic lo deja sorprendentemente claro. Su equipo defiende que el contexto debe tratarse como un recurso finito, y que una buena ingeniería de contexto consiste en encontrar «el conjunto más pequeño posible de tokens de alta señal» para cada tarea. No es una optimización marginal. Es una filosofía completamente distinta. Viene a decir que el futuro no pertenece a los sistemas que pueden tragarse más contexto, sino a los que saben qué contexto importa de verdad.

Esa distinción se vuelve crítica a medida que se extienden los flujos de trabajo agénticos. En cuanto permites que un sistema de inteligencia artificial actúe de forma iterativa, utilice herramientas, revise planes y mantenga estado de sesión, el consumo de tokens se multiplica rápidamente. Lo que desde fuera parece una única tarea puede implicar múltiples prompts ocultos, subconsultas, resúmenes y reintentos. Deloitte ya describe los tokens como la nueva moneda de la economía de la inteligencia artificial, precisamente porque la estructura de los sistemas agénticos altera radicalmente la dinámica de costes.

Y, sin embargo, muchas empresas siguen comportándose como si escalar fuera suficiente para resolver el problema.

No lo es.

El contexto largo no es gratis

Uno de los mitos más persistentes en la inteligencia artificial empresarial es que, si algo de contexto es bueno, más contexto tiene que ser mejor. Esa suposición siempre fue simplista, y la evidencia en su contra es cada vez más sólida.

El paper «Lost in the Middle« mostró que los modelos de lenguaje tienen dificultades para utilizar información relevante cuando está enterrada en contextos largos, funcionando mejor cuando la información clave aparece al principio o al final. Más recientemente, la evaluación de contexto largo de Chroma en 18 modelos encontró que el rendimiento se vuelve cada vez más inestable a medida que crece la longitud de entrada. En otras palabras, llega un punto en el que más tokens dejan de aportar inteligencia y empiezan a aportar sólo ruido.

Es aquí donde el enfoque de fuerza bruta empieza a parecer menos una inevitabilidad tecnológica y más una arquitectura perezosa. Si tu respuesta a cada nueva necesidad es meter más contenido en el prompt, conservar cada interacción para siempre y mantener todos los artefactos intermedios en la ventana activa de contexto, no estás construyendo un mejor sistema de inteligencia artificial. Estás construyendo uno más caro y, probablemente, peor.

La verdadera frontera es la ingeniería de contexto

El futuro interesante no es «más grande y más voraz». Es más selectivo, más estructurado y más deliberado. Por eso el concepto emergente más importante en la inteligencia artificial aplicada puede no ser la ingeniería de prompts, sino la ingeniería de contexto.

Anthropic define explícitamente la ingeniería de contexto como el siguiente paso tras la ingeniería de prompts. OpenAI ofrece recuperación (retrieval) y prompt caching para evitar enviar repetidamente grandes volúmenes de información. Google ofrece context caching para reutilizar contextos iniciales extensos. Las recomendaciones de Microsoft sobre RAG y chunking son igual de claras: enviar documentos completos o fragmentos sobredimensionados es caro, puede saturar los límites de tokens y a menudo produce peores resultados que pipelines de recuperación bien diseñados.

Un ejemplo reciente lo ilustra perfectamente: la decisión de Anthropic de cortar el acceso a Claude desde entornos como OpenClaw cuando se utilizaban suscripciones planas. En cuanto los sistemas agénticos empezaron a ejecutar bucles autónomos —planificando, iterando y llamando herramientas sin fricción— el consumo de tokens dejó de ser marginal y pasó a ser explosivo. Lo que desde fuera parecía «más inteligencia» era, en realidad, una arquitectura que quemaba tokens a una velocidad incompatible con los modelos de pricing existentes. La rápida reacción del proveedor no es una anomalía: es una señal estructural. Cuando el coste real aflora, los límites aparecen. Y eso debería hacer reflexionar a cualquier empresa: si tu sistema depende de supuestos económicos o contractuales que pueden romperse en cuanto el uso se vuelve intensivo, no tienes una ventaja tecnológica. Tienes una dependencia frágil disfrazada de capacidad.

No son técnicas marginales. Son señales claras de que la era de la fuerza bruta tiene límites.

El patrón es evidente. El stack empresarial del futuro no consistirá en reenviar ciegamente todo lo que una empresa sabe a un modelo en cada interacción. Se basará en mejor arquitectura: capas de recuperación, control de accesos, memoria selectiva, resúmenes jerárquicos, compresión de contexto, caché, enrutamiento y planificación de consultas.

En otras palabras, se basará en ingeniería.

Por qué la economía actual es engañosa

Aquí es donde los incentivos se distorsionan.

Los proveedores de modelos pueden vivir perfectamente en un mundo en el que los clientes creen que el crecimiento de tokens es natural, inevitable e incluso deseable. Más llamadas, más contexto, más bucles, más ingresos. Los fabricantes de GPUs también salen ganando cuando la demanda de inferencia sigue creciendo.

Y, por supuesto, parte de esa demanda es legítima. Hay casos de uso reales que requieren más contexto, más modalidades y una inferencia más sofisticada. Pero sería un error confundir «hay demanda» con «no hay desperdicio».

OpenAI afirma que el prompt caching puede reducir la latencia hasta en un 80% y los costes de tokens de entrada hasta en un 90% en contenidos repetidos. Google señala que el context caching es especialmente útil cuando se reutiliza un contexto inicial amplio. Microsoft afirma que un buen chunking elimina información irrelevante y mejora tanto el coste como la calidad. Ninguna de estas capacidades sería relevante si el enfoque de fuerza bruta fuera ya eficiente. Su mera existencia demuestra que una arquitectura inteligente supera al uso indiscriminado de tokens.

Por eso las empresas deberían ser muy cautas al adoptar el lenguaje de los proveedores que les venden computación. «Más capaz» y «más caro de ejecutar» no son sinónimos. La industria de la inteligencia artificial está monetizando la inflación de tokens. Las empresas inteligentes diseñarán sistemas para escapar de ella.

La ventaja competitiva vendrá de entender tu propio contexto

Aquí es donde este análisis deja de ser una queja sobre costes. Porque la verdadera oportunidad no es solo reducir la factura de tokens. Es construir mejores sistemas.

Una empresa que entiende su propia estructura de conocimiento, sus permisos internos, sus flujos de trabajo, su terminología y su lógica de decisión no debería tener que abordar cada interacción con un sistema de inteligencia artificial como si hablara con un desconocido desde cero. Debería ser capaz de arquitectar el contexto de forma inteligente: recuperar la información adecuada en el momento adecuado, preservar lo relevante, descartar lo superfluo y anclar las respuestas en su propia lógica interna.

No es una mejora menor. Cambia radicalmente la economía de la inteligencia artificial empresarial.

Si la plataforma de la empresa está bien diseñada, el modelo no debería tener que cargar con todo el mundo en su memoria activa constantemente. Debería trabajar con un subconjunto dinámico, curado y de alta señal. La arquitectura de recuperación agéntica de Microsoft apunta exactamente en esa dirección: subconsultas enfocadas, respuestas estructuradas, citas, filtrado de seguridad y anclaje en fuentes de conocimiento, en lugar de saturar el contexto indiscriminadamente.

Por eso mismo argumenté en otro artículo que «la inteligencia artificial no sustituye a la estrategia: la dejará al descubierto«. Aquí ocurre lo mismo. La inteligencia artificial no solo revelará si has adoptado el último modelo. Revelará si tu empresa entiende realmente su propia arquitectura de información o si ha estado operando en una niebla de documentos desconectados, permisos inconsistentes y procesos fragmentados.

Qué premiará realmente la próxima fase de la inteligencia artificial

Las empresas que ganen en la próxima fase de la inteligencia artificial no serán las que puedan pagar las mayores facturas de tokens. Serán las que construyan sistemas que no las necesiten.

Tratarán los tokens como los buenos ingenieros tratan el ancho de banda, la batería o la latencia: no como recursos infinitos que se consumen sin pensar, sino como restricciones que premian el diseño inteligente. Guardarán la mayor parte del contexto en modelos del mundo. Usarán modelos grandes cuando tenga sentido. Usarán recuperación cuando sea suficiente. Cachearán el contexto repetido. Enrutarán tareas simples a modelos más baratos. Gestionarán la memoria en lugar de idealizarla. Distinguirán entre contexto disponible y contexto útil.

Y, sobre todo, dejarán de confundir fuerza bruta con sofisticación. Esa es la parte del relato actual de la inteligencia artificial que necesita una corrección urgente. La industria nos empuja a imaginar un futuro en el que el consumo creciente de tokens es simplemente el precio del progreso.

Probablemente no lo sea. Es, al menos en parte, el precio de una arquitectura inmadura. Y la arquitectura madura tiene una forma muy eficaz de destruir malos modelos de negocio.

El futuro de la inteligencia artificial no pertenecerá a las empresas que consuman más tokens. Pertenecerá a las que sepan necesitar menos.

(This article was previously published on Fast Company)

#001
Xaquín - 7 abril 2026 - 12:58
«subconsultas enfocadas, respuestas estructuradas, citas, filtrado de seguridad y anclaje en fuentes de conocimiento, en lugar de saturar el contexto indiscriminadamente.» (EDans).
Y yo pensando que hablabas de una IH… eso que, en la retórica humana, le podemos llamar «evitar la hojarasca inútil».
#002
Carlos Renzo - 7 abril 2026 - 13:18
Gracias por estas alertas. Agregarle que los arquitectos de las capas de negocio y de información deben ser concientes de estas alertas.
#003
Sergio Espósito - 7 abril 2026 - 13:23
Me recuerda a cuando todos migraron a las plataformas cloud sin dimensionar. Las facturas eran de espanto
#004
BUZZWORD - 7 abril 2026 - 15:33
Estoy trabajando con un LLM local en analizar textos, el camino que he seguido es:
a) Introducir tu artículo
b) Pedirle un resumen extenso
c) Hacer una pregunta para motivar al LLM un análisis

Creo que el análisis del artículo se basa en que los fabricantes de modelos «crean una necesidad (más tokens)» para funcionar mejor, pero mi experiencia me dice que cuando trabajas en los prompts dando información de calidad en la petición, ofreces documentación de referencia (usando por ejemplo PDF en rag) es la única forma de dotar al LLM de las herramientas necesarias para generar una buena respuesta

d) Obtener una respuesta
Tienes un punto de vista muy válido y que toca el núcleo del debate actual sobre la implementación práctica de la IA. Tu experiencia resalta la **importancia crítica de la calidad de la entrada (el *prompt* y los datos)**, lo cual es fundamentalmente diferente a simplemente aumentar la cantidad de tokens o la complejidad del agente.
Aquí te presento un análisis que integra tu perspectiva con la tesis del artículo original:
### 1. La Diferencia entre "Cantidad" y "Calidad" de la Información El artículo critica la **inflación de tokens** como una tendencia *estructural* (más pasos, más memoria, más orquestación). Tu experiencia se centra en la **calidad de los datos fuente**.
* **La Tesis del Artículo:** El problema es que el sistema está diseñado para ser *más grande y complejo*, lo que requiere más tokens. * **Tu Experiencia (RAG/Documentación):** La solución no es necesariamente hacer al agente más grande, sino **alimentarlo con la fuente de verdad más precisa y concisa posible**. Usar RAG (Retrieval-Augmented Generation) con PDFs específicos significa que estás *limitando intencionalmente* el contexto a lo estrictamente necesario.
### 2. Cómo se Relacionan Ambos Conceptos: El Equilibrio Ideal No son necesariamente opuestos; más bien, representan dos niveles de optimización diferentes:
* **Nivel 1: La Infraestructura (El Problema del Artículo):** Los proveedores y desarrolladores están incentivados a construir sistemas *más grandes* porque el consumo de tokens es su métrica de éxito. Esto lleva al "exceso" o la sobre-ingeniería. * **Nivel 2: La Aplicación (Tu Experiencia):** El usuario final debe actuar como un **curador de información**. En lugar de dejar que el agente divague consumiendo tokens en reflexiones innecesarias, tú intervienes para decirle: "No pienses sobre todo; solo usa esta documentación específica y responde basándote *únicamente* en esto."
### 3. Refinando la Crítica al Artículo con tu Perspectiva Podríamos argumentar que el artículo está señalando un **riesgo de *sobre-ingeniería***, mientras que tú estás proponiendo una **estrategia de *restricción inteligente***:
| Aspecto | Visión del Artículo (Crítica) | Tu Experiencia (Solución Práctica) | | :--- | :--- | :--- | | **Motor del Consumo** | La complejidad creciente y la autonomía del agente. | La necesidad de anclar las respuestas a fuentes verificables. | | **Riesgo Principal** | El gasto descontrolado por *exceso* de procesamiento (tokens). | La generación de "alucinaciones" o respuestas vagas si no se restringe el contexto. | | **La Solución Ideal** | Diseñar sistemas que sean eficientes y no dependan del volumen. | Implementar mecanismos estrictos de **recuperación y citación** para mantener la respuesta concisa y fundamentada. |
**En conclusión:** Tienes razón al señalar que, en la práctica empresarial, el mayor valor se obtiene cuando el *prompt* actúa como un **filtro de calidad**. No basta con tener un agente "inteligente" (que consume muchos tokens); debe ser un agente **enfocado y limitado por fuentes de verdad** para evitar el gasto innecesario y garantizar la precisión. Tu enfoque es pasar del consumo pasivo a la **intervención activa y quirúrgica** en el proceso de generación de conocimiento.
Creo que como realmente se saca provecho a un LLM es haciendo las preguntas adecuadas y mejorando el «interfaz humano». La elección del LLM es importante, pero más es no escoger un LLM de suscripción, hoy tenemos a nuestra disposición modelos que funcionan bastante bien en local, incluso haciendo código. El departamento que siga pagando tokens por un gepeto que no está a la altura, es para haceérselo mirar cuando hay modelos que solamente te tienes que hacer con un HW sencillo para una empresa, que a poco que lo usen lo amortizan en pocos meses. Y a coste casi cero, y mucho más privados que los comerciales.
- BUZZWORD - 7 abril 2026 - 17:32
  Por cierto lo que cuenta Enrique es totalmente cierto, mirad lo que le ha pasado a midudev
  Claude
  Una pregunta a Claude, y se le han comido el 10% del crédito de tokens…
#006
Benji - 7 abril 2026 - 15:45
Separar el grano de la paja… para crear más paja
- BUZZWORD - 7 abril 2026 - 15:59
  Los peor pagados son esos separadores …
  Madagascar: la mano de obra barata de la IA
#008
Lua - 7 abril 2026 - 19:51
…. buhhhhh…..
El problema es Sam Altman
#009
D. FALKEN - 7 abril 2026 - 20:55
Guardarán la mayor parte del contexto en modelos del mundo. Usarán modelos grandes cuando tenga sentido. Usarán recuperación cuando sea suficiente. Cachearán el contexto repetido. Enrutarán tareas simples a modelos más baratos. Gestionarán la memoria en lugar de idealizarla. Distinguirán entre contexto disponible y contexto útil.
…Y construirán esta ingeniería articulando una infraestructura local con la infraestructura externa.
Precisamente hoy que estaba haciendo pruebas con mis modelos en local, le daba vueltas a como monitorizar todos mis flujos de tokens.
Argumentar en base a esa Ingeniería del contexto no solo es muy oportuno, sino que, tal y como hemos comentado en otra ocasión, enlaza con retos como puede ser la gestión del corpus del conocimiento. Asunto nada trivial, que tiene muchas aristas. Desde una optimización personal o local de esos datos que serán materia prima de ventanas de contexto hasta, quien sabe, dada la generación de ruido en internet, hasta una hipotética conexión api, mcp, etc… que igual nos veremos haciendo en un futuro a databases «fiables» y especializadas. Aún si cabe, mejorar los procesos conversores y recuperadores de contexto. ¿Estamos recuperando todo lo que necesitamos? La confianza sobre el corpus se traza entonces desde el origen y desde el destino. Cuando se domina el contenido del contexto la utilidad de la respuesta no es la misma que cuando se conoce/recuerda menos sobre el mismo. Es importante, entonces, controlar el proceso.
Para construir mejores sistemas, darle margen de iniciativa a los proveedores de tokens, no creo que sea muy buena idea. Su negocio esta diseñado para maximizar el output de tokens, y las medidas correctoras propuestas por ellos mismos suenan a música de encantadores de serpientes.
La noticia sobre la que pivota este artículo, es un efecto colateral para la industria. Las cosas han ido demasiado rápido hasta para los proveedores de tokens. Y la coyuntura es, que ante la explosión no ya de los modelos agénticos, sino de los modelos agénticos autónomos; la consolidación de las cadenas de razonamiento como grandes generadores de tokens, y la imparable creación de código, ha supuesto un pisotón sobre el modelo de ventas. El problema no es que hay mucho output -que tambien si es gratuito- sino que se estaba haciendo a costa de los modelos de subscripción de cuota fija.
Son los clientes de estas empresas los que necesitan auditar sus automatizaciones. ¿Hay que entregar las llaves de equipos y carteras a sistemas agénticos autónomos? ¿Cuando y en qué medida son necesarios?
Porque la cuestión de fondo no ha dejado de ser en qué aplicamos estos modelos y de que manera lo estamos haciendo.
- BUZZWORD - 7 abril 2026 - 23:30
  Exactamente !!
  Mi experiencia en local es que los RAGs deben ser limitados a aquello que necesitas preguntar. Por ejemplo si le quiero preguntar sobre algo de la República, meterle en el mismo saco cosas del SXX español (Miguel Primo, GC, Franco, transición) es ensuciar la búsqueda con datos que pueden correlar con la pregunta pero no ser lo buscado ( en historia la cronología es una ayuda a tener en cuenta), y activas la franja temporal que se ajusta. Por ejemplo para la revolución de Asturias del 34, pon solo esos capítulos, limita a hechos del 32-36, para ver antecedentes y consecuencias, pero no pongas del 23 al 31, o del 37-45
  Mejora las fuentes con resumenes hechos ad-hoc por la propia IA y quita paja… NotebookLM es muy bueno pq te permite «apagar» fuentes. Hay que aprender de quien sabe hacer las cosas bien !!
  Lo mismo pasa con las ventanas de contexto de los modelos, si le pongo al qwen los 250000 tokens se va a llenar la VRAM y va a funcionar peor
  Si no libero preguntas anteriores, las va a tener en cuenta en el prompt y puede arruinar tu búsqueda… con trozos que el LLM ha encontrado a preguntas anteriores y ahora si le cambio el alcance de la pregunta, él no sabe cual si lo que tiene preguntado lo tiene que volver a sacar o no, y le puede parecer relevante.
  Por tanto:
  a) Fuentes en el RAG mínimas a lo que se está preguntando
  b) Ventanas de contextos acordes a la funcionalidad que se pregunta, que haya chunks por ejemplo de 1 ó 2 pgs, y pueda seleccionar las páginas relevantes…
  c) Borrar el histórico del chat y limitar a las 3 ó 4 últimas…
  Por un lado, cuanta más info le metes a un LLM más se dispersa y por otro lado cuanto más ajustes el prompt de lo que le pides mejor resultado te dará.
  Trabajar en una empresa y que te facturen por tokens, son ideas de Jaimito, es darle la oportunidad a ese fabricante de que te time. COÑO que hay modelos abiertos, que los instalas y para sacar cuatro mierdas de informes empresariales funcionan como dios !!!
#011
Abel - 8 abril 2026 - 11:11
Si por industria de la IA te refieres a los que crean los LLMs (OpenAI y Anthropic básicamente, Google juega a parte), o los que construyen Apps sobre ellos (Lovable, etc) no tengo tan claro que les interese el exceso de tokens. Por ese motivo ponen límites de consumo a sus planes y por eso no se puede usar OpenClaw con las suscripciones de Claude. Al final, están subvencionando el consumo y perdiendo dinero. El coste computacional es enorme y el único beneficio que intentan sacar es enganchar a los usuarios aspirando a que más adelante pague más o a conseguir ser más eficientes en el futuro y mejorar sus márgenes.
Recuerda a cuando empezó el 3G y los operadores de telefonía móvil limitaban las tarifas de datos.
A quien si le puede interesar, teóricamente, es a los vendedores de chips y de computación. Aunque dada la demanda masiva que tienen y que no pueden satisfacer, tampoco parece que les compense.
Yo lo veo más similar a los que pasó con DeepSeek y que parece que los americanos no han aprendido. Ellos siguen con su cultura de ‘más madera’ en vez de optimizar. Están instalados en la carrera por empujar la frontera y no piensan demasiado en ser más eficientes. Supongo que en algún momento cambiarán el chip.
Y si he visto gente recomendando configuraciones en Open Claw para minimizar el gasto.