A la industria de la inteligencia artificial le encanta la inflación de tokens. A tu empresa no debería…

IMAGE: A split scene shows, on one side, a chaotic flood of glowing tokens and industrial AI systems, and on the other, a calm workspace where a person carefully builds a structured stack of relevant information, symbolizing efficient AI use

La industria de la inteligencia artificial tiene un problema de adicción silencioso: está enganchada a los tokens.

Cada nueva generación de inteligencia artificial agéntica parece asumir que la respuesta a la complejidad es lanzar más contexto al modelo, mantener historiales más largos, generar más llamadas, iterar sobre más herramientas y dejar que el contador de tokens se dispare.

El auge de los sistemas agénticos, y ahora de proyectos como OpenClaw, refuerza aún más esa tentación: en cuanto das más autonomía a los modelos, no solo consumen tokens para responder preguntas. Los consumen para planificar, reflexionar, reintentar, resumir, llamar a herramientas, inspeccionar resultados y mantenerse en el camino. OpenClaw se define a sí mismo como una puerta de enlace agent-native con sesiones, memoria, uso de herramientas y enrutamiento multiagente a través de plataformas de mensajería, lo que deja claro hacia dónde vamos: más autonomía, más orquestación y, salvo que alguien lo corrija, mucho más consumo de tokens.

Esa trayectoria entusiasma a casi todos los que venden la infraestructura. Si la facturación se basa en tokens, más consumo significa más crecimiento. Si vendes el cómputo que hay detrás de esos tokens, mejor todavía. Google señaló en sus resultados de octubre de 2025 que estaba procesando más de 1.3 cuatrillones de tokens mensuales en sus plataformas, más de veinte veces el volumen de un año antes. NVIDIA, por su parte, está apostando claramente por la economía de la inferencia y la inteligencia artificial agéntica, subrayando tanto el aumento de la demanda como la oportunidad de vender cada vez más infraestructura.

Pero las empresas que compran inteligencia artificial deberían verlo de otra manera. Porque, desde el punto de vista del cliente, el crecimiento explosivo del consumo de tokens no es necesariamente una señal de inteligencia. En muchos casos, es una señal de ineficiencia.

Más tokens no equivalen a más inteligencia

El relato dominante en la industria trata el consumo de tokens como si fuera un indicador de progreso. Ventanas de contexto más grandes, más trazas de razonamiento, más bucles de agentes, más memoria, más recuperación, más interacciones. Todo suena impresionante.

Pero un sistema que necesita ingerir y regenerar enormes cantidades de contexto en cada paso no es necesariamente más inteligente. Puede simplemente estar mal diseñado.

La propia guía de ingeniería de Anthropic lo deja sorprendentemente claro. Su equipo defiende que el contexto debe tratarse como un recurso finito, y que una buena ingeniería de contexto consiste en encontrar «el conjunto más pequeño posible de tokens de alta señal» para cada tarea. No es una optimización marginal. Es una filosofía completamente distinta. Viene a decir que el futuro no pertenece a los sistemas que pueden tragarse más contexto, sino a los que saben qué contexto importa de verdad.

Esa distinción se vuelve crítica a medida que se extienden los flujos de trabajo agénticos. En cuanto permites que un sistema de inteligencia artificial actúe de forma iterativa, utilice herramientas, revise planes y mantenga estado de sesión, el consumo de tokens se multiplica rápidamente. Lo que desde fuera parece una única tarea puede implicar múltiples prompts ocultos, subconsultas, resúmenes y reintentos. Deloitte ya describe los tokens como la nueva moneda de la economía de la inteligencia artificial, precisamente porque la estructura de los sistemas agénticos altera radicalmente la dinámica de costes.

Y, sin embargo, muchas empresas siguen comportándose como si escalar fuera suficiente para resolver el problema.

No lo es.

El contexto largo no es gratis

Uno de los mitos más persistentes en la inteligencia artificial empresarial es que, si algo de contexto es bueno, más contexto tiene que ser mejor. Esa suposición siempre fue simplista, y la evidencia en su contra es cada vez más sólida.

El paper «Lost in the Middle« mostró que los modelos de lenguaje tienen dificultades para utilizar información relevante cuando está enterrada en contextos largos, funcionando mejor cuando la información clave aparece al principio o al final. Más recientemente, la evaluación de contexto largo de Chroma en 18 modelos encontró que el rendimiento se vuelve cada vez más inestable a medida que crece la longitud de entrada. En otras palabras, llega un punto en el que más tokens dejan de aportar inteligencia y empiezan a aportar sólo ruido.

Es aquí donde el enfoque de fuerza bruta empieza a parecer menos una inevitabilidad tecnológica y más una arquitectura perezosa. Si tu respuesta a cada nueva necesidad es meter más contenido en el prompt, conservar cada interacción para siempre y mantener todos los artefactos intermedios en la ventana activa de contexto, no estás construyendo un mejor sistema de inteligencia artificial. Estás construyendo uno más caro y, probablemente, peor.

La verdadera frontera es la ingeniería de contexto

El futuro interesante no es «más grande y más voraz». Es más selectivo, más estructurado y más deliberado. Por eso el concepto emergente más importante en la inteligencia artificial aplicada puede no ser la ingeniería de prompts, sino la ingeniería de contexto.

Anthropic define explícitamente la ingeniería de contexto como el siguiente paso tras la ingeniería de prompts. OpenAI ofrece recuperación (retrieval) y prompt caching para evitar enviar repetidamente grandes volúmenes de información. Google ofrece context caching para reutilizar contextos iniciales extensos. Las recomendaciones de Microsoft sobre RAG y chunking son igual de claras: enviar documentos completos o fragmentos sobredimensionados es caro, puede saturar los límites de tokens y a menudo produce peores resultados que pipelines de recuperación bien diseñados.

Un ejemplo reciente lo ilustra perfectamente: la decisión de Anthropic de cortar el acceso a Claude desde entornos como OpenClaw cuando se utilizaban suscripciones planas. En cuanto los sistemas agénticos empezaron a ejecutar bucles autónomos —planificando, iterando y llamando herramientas sin fricción— el consumo de tokens dejó de ser marginal y pasó a ser explosivo. Lo que desde fuera parecía «más inteligencia» era, en realidad, una arquitectura que quemaba tokens a una velocidad incompatible con los modelos de pricing existentes. La rápida reacción del proveedor no es una anomalía: es una señal estructural. Cuando el coste real aflora, los límites aparecen. Y eso debería hacer reflexionar a cualquier empresa: si tu sistema depende de supuestos económicos o contractuales que pueden romperse en cuanto el uso se vuelve intensivo, no tienes una ventaja tecnológica. Tienes una dependencia frágil disfrazada de capacidad.

No son técnicas marginales. Son señales claras de que la era de la fuerza bruta tiene límites.

El patrón es evidente. El stack empresarial del futuro no consistirá en reenviar ciegamente todo lo que una empresa sabe a un modelo en cada interacción. Se basará en mejor arquitectura: capas de recuperación, control de accesos, memoria selectiva, resúmenes jerárquicos, compresión de contexto, caché, enrutamiento y planificación de consultas.

En otras palabras, se basará en ingeniería.

Por qué la economía actual es engañosa

Aquí es donde los incentivos se distorsionan.

Los proveedores de modelos pueden vivir perfectamente en un mundo en el que los clientes creen que el crecimiento de tokens es natural, inevitable e incluso deseable. Más llamadas, más contexto, más bucles, más ingresos. Los fabricantes de GPUs también salen ganando cuando la demanda de inferencia sigue creciendo.

Y, por supuesto, parte de esa demanda es legítima. Hay casos de uso reales que requieren más contexto, más modalidades y una inferencia más sofisticada. Pero sería un error confundir «hay demanda» con «no hay desperdicio».

OpenAI afirma que el prompt caching puede reducir la latencia hasta en un 80% y los costes de tokens de entrada hasta en un 90% en contenidos repetidos. Google señala que el context caching es especialmente útil cuando se reutiliza un contexto inicial amplio. Microsoft afirma que un buen chunking elimina información irrelevante y mejora tanto el coste como la calidad. Ninguna de estas capacidades sería relevante si el enfoque de fuerza bruta fuera ya eficiente. Su mera existencia demuestra que una arquitectura inteligente supera al uso indiscriminado de tokens.

Por eso las empresas deberían ser muy cautas al adoptar el lenguaje de los proveedores que les venden computación. «Más capaz» y «más caro de ejecutar» no son sinónimos. La industria de la inteligencia artificial está monetizando la inflación de tokens. Las empresas inteligentes diseñarán sistemas para escapar de ella.

La ventaja competitiva vendrá de entender tu propio contexto

Aquí es donde este análisis deja de ser una queja sobre costes. Porque la verdadera oportunidad no es solo reducir la factura de tokens. Es construir mejores sistemas.

Una empresa que entiende su propia estructura de conocimiento, sus permisos internos, sus flujos de trabajo, su terminología y su lógica de decisión no debería tener que abordar cada interacción con un sistema de inteligencia artificial como si hablara con un desconocido desde cero. Debería ser capaz de arquitectar el contexto de forma inteligente: recuperar la información adecuada en el momento adecuado, preservar lo relevante, descartar lo superfluo y anclar las respuestas en su propia lógica interna.

No es una mejora menor. Cambia radicalmente la economía de la inteligencia artificial empresarial.

Si la plataforma de la empresa está bien diseñada, el modelo no debería tener que cargar con todo el mundo en su memoria activa constantemente. Debería trabajar con un subconjunto dinámico, curado y de alta señal. La arquitectura de recuperación agéntica de Microsoft apunta exactamente en esa dirección: subconsultas enfocadas, respuestas estructuradas, citas, filtrado de seguridad y anclaje en fuentes de conocimiento, en lugar de saturar el contexto indiscriminadamente.

Por eso mismo argumenté en otro artículo que «la inteligencia artificial no sustituye a la estrategia: la dejará al descubierto«. Aquí ocurre lo mismo. La inteligencia artificial no solo revelará si has adoptado el último modelo. Revelará si tu empresa entiende realmente su propia arquitectura de información o si ha estado operando en una niebla de documentos desconectados, permisos inconsistentes y procesos fragmentados.

Qué premiará realmente la próxima fase de la inteligencia artificial

Las empresas que ganen en la próxima fase de la inteligencia artificial no serán las que puedan pagar las mayores facturas de tokens. Serán las que construyan sistemas que no las necesiten.

Tratarán los tokens como los buenos ingenieros tratan el ancho de banda, la batería o la latencia: no como recursos infinitos que se consumen sin pensar, sino como restricciones que premian el diseño inteligente. Guardarán la mayor parte del contexto en modelos del mundo. Usarán modelos grandes cuando tenga sentido. Usarán recuperación cuando sea suficiente. Cachearán el contexto repetido. Enrutarán tareas simples a modelos más baratos. Gestionarán la memoria en lugar de idealizarla. Distinguirán entre contexto disponible y contexto útil.

Y, sobre todo, dejarán de confundir fuerza bruta con sofisticación. Esa es la parte del relato actual de la inteligencia artificial que necesita una corrección urgente. La industria nos empuja a imaginar un futuro en el que el consumo creciente de tokens es simplemente el precio del progreso.

Probablemente no lo sea. Es, al menos en parte, el precio de una arquitectura inmadura. Y la arquitectura madura tiene una forma muy eficaz de destruir malos modelos de negocio.

El futuro de la inteligencia artificial no pertenecerá a las empresas que consuman más tokens. Pertenecerá a las que sepan necesitar menos.


(This article was previously published on Fast Company)

7 comentarios

  • #001
    Xaquín - 7 abril 2026 - 12:58

    «subconsultas enfocadas, respuestas estructuradas, citas, filtrado de seguridad y anclaje en fuentes de conocimiento, en lugar de saturar el contexto indiscriminadamente.» (EDans).

    Y yo pensando que hablabas de una IH… eso que, en la retórica humana, le podemos llamar «evitar la hojarasca inútil».

    Responder
  • #002
    Carlos Renzo - 7 abril 2026 - 13:18

    Gracias por estas alertas. Agregarle que los arquitectos de las capas de negocio y de información deben ser concientes de estas alertas.

    Responder
  • #003
    Sergio Espósito - 7 abril 2026 - 13:23

    Me recuerda a cuando todos migraron a las plataformas cloud sin dimensionar. Las facturas eran de espanto

    Responder
  • #004
    BUZZWORD - 7 abril 2026 - 15:33

    Estoy trabajando con un LLM local en analizar textos, el camino que he seguido es:

    a) Introducir tu artículo
    b) Pedirle un resumen extenso
    c) Hacer una pregunta para motivar al LLM un análisis


    Creo que el análisis del artículo se basa en que los fabricantes de modelos «crean una necesidad (más tokens)» para funcionar mejor, pero mi experiencia me dice que cuando trabajas en los prompts dando información de calidad en la petición, ofreces documentación de referencia (usando por ejemplo PDF en rag) es la única forma de dotar al LLM de las herramientas necesarias para generar una buena respuesta

    d) Obtener una respuesta


    Tienes un punto de vista muy válido y que toca el núcleo del debate actual sobre la implementación práctica de la IA. Tu experiencia resalta la **importancia crítica de la calidad de la entrada (el *prompt* y los datos)**, lo cual es fundamentalmente diferente a simplemente aumentar la cantidad de tokens o la complejidad del agente.

    Aquí te presento un análisis que integra tu perspectiva con la tesis del artículo original:

    ### 1. La Diferencia entre "Cantidad" y "Calidad" de la Información
    El artículo critica la **inflación de tokens** como una tendencia *estructural* (más pasos, más memoria, más orquestación). Tu experiencia se centra en la **calidad de los datos fuente**.

    * **La Tesis del Artículo:** El problema es que el sistema está diseñado para ser *más grande y complejo*, lo que requiere más tokens.
    * **Tu Experiencia (RAG/Documentación):** La solución no es necesariamente hacer al agente más grande, sino **alimentarlo con la fuente de verdad más precisa y concisa posible**. Usar RAG (Retrieval-Augmented Generation) con PDFs específicos significa que estás *limitando intencionalmente* el contexto a lo estrictamente necesario.

    ### 2. Cómo se Relacionan Ambos Conceptos: El Equilibrio Ideal
    No son necesariamente opuestos; más bien, representan dos niveles de optimización diferentes:

    * **Nivel 1: La Infraestructura (El Problema del Artículo):** Los proveedores y desarrolladores están incentivados a construir sistemas *más grandes* porque el consumo de tokens es su métrica de éxito. Esto lleva al "exceso" o la sobre-ingeniería.
    * **Nivel 2: La Aplicación (Tu Experiencia):** El usuario final debe actuar como un **curador de información**. En lugar de dejar que el agente divague consumiendo tokens en reflexiones innecesarias, tú intervienes para decirle: "No pienses sobre todo; solo usa esta documentación específica y responde basándote *únicamente* en esto."

    ### 3. Refinando la Crítica al Artículo con tu Perspectiva
    Podríamos argumentar que el artículo está señalando un **riesgo de *sobre-ingeniería***, mientras que tú estás proponiendo una **estrategia de *restricción inteligente***:

    | Aspecto | Visión del Artículo (Crítica) | Tu Experiencia (Solución Práctica) |
    | :--- | :--- | :--- |
    | **Motor del Consumo** | La complejidad creciente y la autonomía del agente. | La necesidad de anclar las respuestas a fuentes verificables. |
    | **Riesgo Principal** | El gasto descontrolado por *exceso* de procesamiento (tokens). | La generación de "alucinaciones" o respuestas vagas si no se restringe el contexto. |
    | **La Solución Ideal** | Diseñar sistemas que sean eficientes y no dependan del volumen. | Implementar mecanismos estrictos de **recuperación y citación** para mantener la respuesta concisa y fundamentada. |

    **En conclusión:** Tienes razón al señalar que, en la práctica empresarial, el mayor valor se obtiene cuando el *prompt* actúa como un **filtro de calidad**. No basta con tener un agente "inteligente" (que consume muchos tokens); debe ser un agente **enfocado y limitado por fuentes de verdad** para evitar el gasto innecesario y garantizar la precisión. Tu enfoque es pasar del consumo pasivo a la **intervención activa y quirúrgica** en el proceso de generación de conocimiento.

    Creo que como realmente se saca provecho a un LLM es haciendo las preguntas adecuadas y mejorando el «interfaz humano». La elección del LLM es importante, pero más es no escoger un LLM de suscripción, hoy tenemos a nuestra disposición modelos que funcionan bastante bien en local, incluso haciendo código. El departamento que siga pagando tokens por un gepeto que no está a la altura, es para haceérselo mirar cuando hay modelos que solamente te tienes que hacer con un HW sencillo para una empresa, que a poco que lo usen lo amortizan en pocos meses. Y a coste casi cero, y mucho más privados que los comerciales.

    Responder
    • BUZZWORD - 7 abril 2026 - 17:32

      Por cierto lo que cuenta Enrique es totalmente cierto, mirad lo que le ha pasado a midudev

      Claude

      Una pregunta a Claude, y se le han comido el 10% del crédito de tokens…

      Responder
  • #006
    Benji - 7 abril 2026 - 15:45

    Separar el grano de la paja… para crear más paja

    Responder

Dejar un Comentario

Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades (astroturfing) o suplantando a otros comentaristas. Los comentarios que incumplan esas normas básicas serán eliminados.

 

XHTML: Puedes utilizar estas etiquetas: A ABBR ACRONYM B BLOCKQUOTE CITE CODE DEL EM I Q STRIKE STRONG IMG

Resumen de privacidad

Este sitio web utiliza cookies para que pueda ofrecerte la mejor experiencia de usuario/a posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves al sitio web o ayudar a comprender qué secciones del sitio web encuentras más interesantes y útiles.