El contador de tokens no mide inteligencia: mide humo

IMAGE: A split-screen office scene contrasts a worker obsessively generating AI tokens to climb a leaderboard with a professional quietly producing valuable outcomes, illustrating the difference between activity and productivity

Durante un tiempo, a muchas empresas les pareció una buena idea medir la adopción de la inteligencia artificial contando tokens. Cuántos tokens consumía cada empleado, cuántas llamadas hacía, cuántas veces invocaba un agente, cuánto contexto movía por sus sistemas. Cómodo, cuantificable, fácil de poner en un dashboard y, sobre todo, producía esa tranquilizadora ilusión de control que tanto gusta en las organizaciones cuando aparece una tecnología nueva.

El problema es que, como casi siempre, la tranquilidad era falsa. El caso de Amazon, que acaba de eliminar un ranking interno de uso de inteligencia artificial después de que algunos empleados empezasen a inflar artificialmente su consumo de tokens para subir posiciones, es casi demasiado perfecto para ser real. Según detalla el Financial Times en «Amazon scraps AI leaderboard to stop workers chasing usage scores«, el sistema, llamado Kirorank, puntuaba a los usuarios de la plataforma Kiro en función de su actividad con inteligencia artificial, hasta que algunos trabajadores empezaron a asignar tareas innecesarias a agentes autónomos para así generar más consumo. La propia compañía terminó pidiendo a sus empleados algo que debería haber sido obvio desde el principio: no uséis inteligencia artificial simplemente por usar inteligencia artificial.

Es difícil encontrar una ilustración más limpia de la ley de Goodhart: cuando una métrica se convierte en objetivo, deja de ser una buena métrica. Pero en este caso hay que ir un paso más allá: el consumo de tokens no dejó de ser una buena métrica cuando se convirtió en objetivo, porque en realidad, nunca fue una buena métrica. Era, como mucho, un proxy perezoso de actividad. Y la actividad, en una empresa, no es valor.

Este es el error de fondo: confundir el movimiento con el progreso. Un empleado que consume muchos tokens no está necesariamente trabajando mejor. Puede estar formulando mal sus preguntas, enviando contexto innecesario como si no hubiera un mañana, utilizando agentes para tareas triviales, iterando sin criterio, aceptando respuestas mediocres o delegando en la máquina procesos que habría resuelto más rápido con una conversación, una búsqueda o cinco minutos de concentración. Puede, simplemente, estar quemando dinero de la empresa para parecer moderno.

La industria de la inteligencia artificial tiene todos los incentivos del mundo para alimentar esa confusión. Si facturas por tokens, más tokens significan más ingresos. Si vendes infraestructura, más inferencia significa más demanda. Si vendes la narrativa de la automatización agéntica, más bucles, más llamadas a herramientas, más memoria y más contexto parecen síntomas de sofisticación. Pero para la empresa que paga la factura, el análisis debería ser exactamente el contrario: más consumo no significa más inteligencia. Muchas veces significa peor arquitectura.

La empresa inteligente no debería celebrar que sus sistemas consuman cada vez más, sino preguntarse por qué lo necesitan. La propia Anthropic, en su guía sobre context engineering, lo formula con bastante claridad: el objetivo es encontrar el conjunto más pequeño posible de tokens de alta señal que maximice la probabilidad de obtener el resultado deseado. No el conjunto más grande. No el prompt más largo. No la conversación más aparatosa. El conjunto más pequeño y más relevante.

Esa frase debería estar enmarcada en todos los comités de dirección que hoy se preguntan cómo medir la adopción de inteligencia artificial. Porque medir tokens es fácil. Medir competencia es mucho más difícil. Un buen profesional puede usar pocos tokens porque sabe exactamente qué pedir, qué contexto aportar, qué modelo elegir, cuándo detenerse, e incluso cuándo no utilizar inteligencia artificial. Uno malo, en cambio, puede usar millones porque no sabe pensar el problema, no sabe estructurar información, no sabe evaluar la respuesta o ha aprendido que el dashboard premia el ruido. En ese escenario, el ranking no identifica a los mejores usuarios: identifica a los más caros.

La paradoja es incómoda: el empleado realmente competente puede parecer menos «adoptador» que el que convierte cada tarea en una innecesaria liturgia agéntica de veinte pasos. El primero hace ingeniería. El segundo hace teatro. Y el teatro, cuando se mide, se expande.

No es un fenómeno nuevo. Las organizaciones llevan décadas destruyendo buenas intenciones mediante indicadores mal escogidos: llamadas atendidas, líneas de código, horas facturables, número de reuniones, tickets cerrados, publicaciones, citas, leads, visitas, clics. Siempre ocurre lo mismo. Primero se elige una métrica porque parece correlacionar con algo importante. Después se convierte en objetivo. Finalmente, la organización aprende a producir la métrica aunque el objetivo original desaparezca. La empresa quería productividad y obtiene actividad. Quería aprendizaje y obtiene cumplimiento. Quería adopción y obtiene tokenmaxxing.

Con la inteligencia artificial, el problema es aún más peligroso porque el coste marginal de fingir actividad puede ser muy alto. Un agente puede ejecutar bucles, llamar herramientas, reintentar, resumir, consultar documentos, generar código, descartarlo y volver a empezar. Desde fuera, todo parece trabajo. Desde dentro, puede ser una máquina de transformar presupuesto en vapor.

Por eso son tan importantes las señales contrarias. El estudio de METR sobre desarrolladores experimentados, por ejemplo, encontró que el uso de herramientas de inteligencia artificial les hizo tardar un 19% más en completar tareas sobre repositorios que conocían bien, aunque ellos mismos creían estar siendo más rápidos. El resultado no demuestra que la inteligencia artificial no funcione, demuestra algo más interesante: que la percepción subjetiva de productividad puede ser profundamente engañosa. Y si la percepción engaña, un contador de tokens engaña todavía más.

También por eso tienen sentido técnicas como el prompt caching de OpenAI, que puede reducir latencia y costes en prompts repetidos, o las recomendaciones de Microsoft sobre chunking en sistemas RAG, que insisten en enviar información relevante y eliminar lo irrelevante. Todas esas prácticas parten de la misma idea: el token no es una medalla, es un recurso. Y como todo recurso, debe administrarse.

La adopción real de inteligencia artificial no debería medirse por cuánto se consume, sino por cuánto mejora el trabajo. Menos tiempo hasta una decisión correcta. Menos errores. Menos repeticiones improductivas. Mejor documentación. Mejor código mantenible. Mejor atención al cliente. Mejor aprendizaje organizativo. Mejor capacidad para abordar problemas que antes no se podían abordar. Y, sobre todo, mejor relación entre resultado obtenido y coste incurrido.

Claramente, el numerador importa, pero el denominador también: una empresa que solo mira tokens está midiendo el denominador y fingiendo que eso le dice algo sobre el numerador. Es como evaluar a un conductor por los litros de gasolina consumidos, a un investigador por el número de PDFs abiertos o a un profesor por los megabytes descargados para preparar una clase. Puede haber alguna correlación débil en ciertos contextos, pero sería absurdo convertirlo en criterio de rendimiento. La pregunta relevante no es quién usa más inteligencia artificial. La pregunta relevante es quién obtiene mejores resultados porque sabe cuándo, cómo y para qué usarla.

Esto nos lleva a una distinción fundamental: el acceso a capacidad de inferencia puede convertirse en una parte muy relevante de la propuesta de valor para determinados profesionales, como planteaba al hablar de los tokens como forma de retribución o de capacidad de acción. Pero una cosa es equipar bien a una persona para que pueda trabajar mejor, y otra muy distinta es premiarla por agotar el presupuesto. Dar acceso a modelos potentes puede ser una inversión. Incentivar su consumo indiscriminado es una estupidez contable.

La madurez empresarial en inteligencia artificial no consistirá en presumir de los millones de tokens procesados: consistirá en diseñar sistemas que necesiten menos tokens para conseguir mejores resultados. Menos fuerza bruta y más contexto bien seleccionado. Menos rankings y más criterio. Menos gamificación infantil y más responsabilidad económica. Menos «mira cuánto uso la inteligencia artificial» y más «mira qué problema he resuelto».

El episodio de Amazon debería ser una advertencia temprana. No porque Amazon haya hecho algo especialmente exótico, sino precisamente porque hizo algo muy normal: intentar acelerar una adopción tecnológica mediante una métrica visible, comparable y aparentemente objetiva. El problema es que las personas no obedecen a los objetivos abstractos de la dirección: obedecen a los incentivos reales del sistema. Y si el sistema premia tokens, producirán tokens.

La inteligencia artificial necesita métricas, por supuesto, pero no cualquier métrica. Necesita métricas que capturen valor, calidad, aprendizaje, fiabilidad, seguridad, coste total y mejora real de procesos. Necesita auditorías, comparativas, experimentos controlados y disciplina. Necesita, en definitiva, gestión. Lo que no necesita es otro marcador luminoso que premie al que más ruido hace.

Porque cuando el consumo de tokens se convierte en objetivo, deja de medir adopción. Y cuando una empresa cree que el consumo de tokens mide inteligencia, lo que realmente está midiendo es su propia ingenuidad.

Read this article in English on Medium with no paywall using this link, «Tokenmaxxing and the failure of simplistic AI metrics»

#001
Luis - 30 mayo 2026 - 10:08
No me puedo creer que nadie en Amazon involucrado en la decisión de implantar ese ranking conociese la ley de Goodhart, se supone que contratan a gente muy preparada.
- Buzzword - 30 mayo 2026 - 11:38
  ¿Vas a llevar la contraria a un directivo que impone una medida con la dictadura empresarial que es? Lo más normal es cumplir con la tarea que te encomienden, no crear ruido, y las ideas brillantes en casa con vino y gaseosa… me recuerda la época de la mili, pasar desapercibido…
#003
Gorki - 30 mayo 2026 - 10:23
Ley de Goodhart – «cuando una medida se convierte en un objetivo, deja de ser una buena medida».
#004
Alqvimista - 30 mayo 2026 - 10:36
¿Cuál es el problema con esa Ley? Las empresas llevan décadas funcionando con ella.
Todas esas empresas que tienen como objetivo el valor de la acción porque en ello les va el cobro de bonus, por ejemplo.
Esos recortes que hacen sólo para que los inversores vean que se hace algo, y suben el valor de la acción sin plantearse las consecuencias a medio plazo de dichos recortes.
- Lua - 30 mayo 2026 - 12:08
  A priori, pudiera parecer una buena idea de cara a inversores: “veis? Aquí se usa la IA hasta para cagar. Es el futuro”…
  Pero de repente, la noticia puede tener el efecto contrario: “para que voy a invertir en algo con lo que perder el tiempo incluso en la empresa creadora?”
  Aquí, otros a los que la tokenizacion se les va a ir de las manos… un momento… De las manos? XDDD
  - Javier - 30 mayo 2026 - 16:18
    «Hemos creado un trabajo donde cuanto más duro trabajes, mejor te desempeñarás»
    A ver si termina ocurriendo lo de siempre: los jefes los explotan, y los empleados se ven forzados a crear un sindicato que luche por sus derechos (8hs laborales, aguinaldo, vacaciones pagas, plus por productividad, semana de 4 días….) veamos como les sale el experimento, pero algo me dice que ya sé como termina esto: los dividendos del trabajo se los termina quedando el dueño de los medios de producción.
    - Dedo-en-la-llaga - 31 mayo 2026 - 02:27
      «Hemos creado un trabajo donde cuanto más duro trabajes, mejor te desempeñarás» Perdona, será «despeñarás». Es parecido, pero NO es lo mismo…
#008
Ángel Soto - 30 mayo 2026 - 10:38
Por no hablar de la posibilidad que han visto en marketing (aka ventas/comisiones) de facturar al cliente por tokens en vez de horas.
#009
Victor - 30 mayo 2026 - 12:49
El calientasillismo versión 2.0. Las cosas evolucionan, los jefecillos mendrugos no tanto.
#010
Javier - 30 mayo 2026 - 15:11
El viejo y nunca bien ponderado efecto cobra:
El término efecto cobra proviene de una anécdota en los tiempos de la dominación británica en la India colonial. El gobierno británico estaba preocupado por el número de cobras venenosas en Delhi. Por tanto, el gobierno ofreció una recompensa por cada cobra muerta. Inicialmente fue una estrategia exitosa y un gran número de serpientes fueron matadas por su recompensa. Sin embargo, personas comenzaron a criar cobras por su recompensa muertas. Cuando el gobierno se percató de esto, el programa de recompensas fue cancelado, causando que los criadores liberaran a las –ya sin valor– cobras. Como resultado, la población de cobras salvajes aumentó. La aparente solución al problema lo hizo aún peor.
…el ser humano es increíble…
#011
Xaquín - 30 mayo 2026 - 19:56
«El primero hace ingeniería. El segundo hace teatro.» (EDans).
Entiendo la metáfora, pero no la comparto, porque el segundo solo hace burocracia, aunque es bien cierto, que ciertos actores son unos perfectos burócratas (del teatro o del cine).
Quiero decir, que hacer teatro de verdad requiere cierta ingeniería (mental), con el texto y su dicción, acompañada de una buena gestualidad. La «máquina» humana en perfecto funcionamiento… mientras que un burócrata es una simple marioneta, poco graciosa y dirigida por un necio irreparable.
#012
Michel Henric-Coll - 31 mayo 2026 - 11:30
Ya lo comenté en mi libro «Las falacias del tecnomanagement»:
‘Si los premios y los castigos del trabajador dependen de los indicadores, entonces la prioridad del trabajador se centra en optimizar los indicadores, y no en cumplir lo mejor posible con su misión’.
[…]
¡Estamos ante otra paradoja lógica: para que los indicadores relativos tengan sentido, tenemos que contar con la responsabilidad e implicación de los trabajadores (para no trampear el sistema), pero creamos indicadores relativos precisamente porque no confiamos en su responsabilidad e implicación’.
#013
Manuel - 31 mayo 2026 - 11:31
Lo que le ha pasado a Amazon con esa medida es solo un pequeñisimo detalle.
El planeta entero mide todo con los tokens que los humanos llaman pastuki y los resultados saltan a la vista.
¡ Oh sorpresa !
Todo el sistema se esmera en acumular tokens-monetarios y los objetivos de humanidad, esperanza, empatia y estabilidad ecoplanetaria que les den por el culo.
Desde mi nave estelar y como observador galactico os digo que no vais en la buena direccion.
SALUDOS
#014
Julio Map - 2 junio 2026 - 10:05
Las cosas tienen su momento y su lugar.
Cuando nacen estas herramientas, tiene mucho sentido medir el consumo de tokens para potenciar su uso.
Pocos años después, cuando todo el mundo las usa, no tiene ningún sentido medir cantidad de uso sin medir calidad, máxime cuando la cantidad te toca directamente el bolsillo, sin proporcionar beneficio alguno. ¿Qué estamos valorando? ¿Promts largos aunque inútiles? ¿Prompts fake?
Posiblemente, una vez superada la primera etapa, haya que medir productividad por empleado, y que use las herramientas que quiera.
Pero en un primer momento, medir tokens consumidos creo que fue una buena idea.
Para quien la tuvo.