llms.txt: un pequeño archivo para no perderse en la web en la era de la inteligencia artificial

IMAGE: A laptop screen displaying a file called "llms.txt", with lines of text, surrounded by floating documents and data icons that suggest information flowing between a website and artificial intelligence systems

Durante años, la web ha tenido una especie de «capa de servicio» para máquinas: archivos simples, aburridos y tremendamente útiles que viven en la raíz del dominio y que sirven para que los robots entiendan cómo tratar un sitio. El robots.txt, por ejemplo, no es un elemento decorativo: es el mecanismo estándar para orientar a los rastreadores de los buscadores sobre qué deben o no deben rastrear, y para gestionar carga y comportamiento de crawling. Del mismo modo, los sitemaps ayudan a que los buscadores encuentren y recorran URLs relevantes sin tener que descubrirlas a ciegas. Esa lógica, la de «un índice pensado para máquinas», es exactamente el punto de partida de llms.txt.

¿Y qué es llms.txt? En esencia, una propuesta para añadir un archivo /llms.txt en el directorio raíz de una página, en el mismo sitio que el robots.txt, en formato texto/Markdown, y que actúe como un «mapa curado» para los modelos de lenguaje y las herramientas que los usan: una lista estructurada de lo importante, con contexto mínimo y enlaces a los recursos que realmente merecen ser leídos.

La motivación original me pareció bastante sensata: los modelos trabajan con ventanas de contexto limitadas y, además, convertir HTML real (menús, scripts, elementos repetidos, etc. y ya ni te cuento cuando hay publicidad) a texto útil es un proceso ruidoso e impreciso. La propuesta lo dice sin rodeos: las páginas web están optimizadas para humanos, pero a los modelos les conviene un punto de entrada más conciso y «sin grasa».

Esto se ha ido comentando en medios del mundo SEO/marketing como un intento de crear algo parecido a robots.txt o sitemap.xml, pero orientado al consumo a través de sistemas basados en LLM. Sin duda, mucho más lógico y positivo que otras estupideces que la gente está haciendo últimamente creyendo que mejoran su SEO. Search Engine Land lo enmarca como una propuesta impulsada por el mítico Jeremy Howard, y la describe como un estándar pensado para facilitar descubrimiento y lectura de contenido por parte de sistemas de inteligencia artificial. Semrush lo presenta de forma parecida: un estándar propuesto para ayudar a los modelos a entender y usar contenido web. Pero al mismo tiempo hay una nota de escepticismo importante que conviene no perder: a día de hoy, no existe una adopción «oficial» y universal por parte de los grandes proveedores, y por tanto su impacto directo es discutible: se habla mucho del archivo, pero eso no significa que los grandes lo estén usando de manera formal en sus rastreadores.

El ejemplo del Estado de Maryland, primera institución pública en implementar un llms.txt en su página oficial, resulta interesante, porque muestra el por qué, más allá del debate técnico. Ray Bell señalaba en LinkedIn que el nuevo sitio web maryland.gov incorpora un llms.txt, y lo justificaba con una observación muy pragmática: los ciudadanos están cada vez más preguntando a chatbots por información estatal, y la administración quiere guiar esas respuestas hacia información oficial y relevante. Es decir: no es solo «para que una inteligencia artificial entienda mi web», sino para aceptar que la interfaz de acceso se está desplazando del navegador al asistente, y que merece la pena orientarla mediante un «rastro de migas de pan» bien planteado.

Con esa misma lógica, yo he publicado ya el mío y lo he subido a la raíz de esta página: /llms.txt. No porque espere un «boost» mágico (esto no es SEO tradicional) sino por una razón mucho más prosaica: mi página web es un archivo vivo, actualizado diariamente desde hace más de dos décadas, y eso puede ser una bendición para algunos lectores humanos… pero una enorme fuente de ambigüedad para una máquina que tiende a mezclar tiempos, contextos y versiones como si todo ocurriera en el mismo plano. Un llms.txt, bien planteado, sirve para decirle a un sistema automático cosas tan básicas como «esto es una página cronológica», «hay un buscador cronológico, uno por palabras clave y uno de texto libre», «hay traducciones al inglés en Medium de todos los artículos desde julio de 2013 enlazadas al final de cada artículo», «el contenido está bajo CC BY y puede citarse y reutilizarse libremente con atribución», «los enlaces de los artículos antiguos pueden no funcionar», o un «ojo: un post de 2004 no significa necesariamente lo mismo que uno de 2026 si preguntas por mi posición actual». En otras palabras: no es un truco para que hablen más de ti, sino un mecanismo para que, cuando lo hagan, tengan menos probabilidades de equivocarse de forma torpe.

También hay un matiz importante: el llms.txt no sustituye a nada de lo anterior. El robots.txt sigue siendo el instrumento que, hoy por hoy, de verdad condiciona el comportamiento de rastreo de los buscadores y de muchos agentes automatizados. El llms.txt es otra capa, orientada a un mundo en el que cada vez más consumo será «mediado» por sistemas que resumen, recomiendan o responden. Si ese mundo se consolida, tener un archivo pequeño, explícito y estable que explique cómo está organizado tu sitio, qué es lo canónico y qué no, y qué permisos concedes sobre él es, simplemente, higiene digital.

¿Va a cambiar algo mañana? Probablemente no. Ahrefs tiene razón al decir que, mientras no haya adopción formal generalizada, el efecto será limitado. Pero la gracia de estos pequeños estándares es precisamente que cuestan muy poco y envejecen muy bien si se redactan con cabeza. Maryland está «poniendo señales» para la inteligencia artificial porque entiende que la señalética importa cuando la gente deja de leer mapas y empieza simplemente a preguntar al copiloto. Yo he hecho lo mismo por un motivo aún más claro: mi contenido no es un folleto corporativo ni una documentación técnica, es una conversación larga con el tiempo, y quiero que quien la «lea» a través de una máquina tenga, al menos, las instrucciones mínimas para no confundir el índice con el ruido.

This article is also available in English on Medium, «When the reader is a machine: the case for llms.txt»

#001
BUZZWORD - 10 enero 2026 - 09:58
Falló la referencia en » Ahrefs tiene razón al decir que»
Responder
- Enrique Dans - 10 enero 2026 - 10:05
  Es que es la misma que ya había enlazado unos párrafos más arriba, pero vale, la pongo otra vez…
  Responder
  - BUZZWORD - 10 enero 2026 - 10:23
    Ay perdona !!
    Creía que se había roto el enlace al empezar igual ….. por ahref
    Responder
    - Enrique Dans - 10 enero 2026 - 10:43
      Jajaja, no, es el nombre de la publicación, Ahrefs
      Responder
#005
Javier - 10 enero 2026 - 14:29
Perdón por el semi off-topic pero lo amerita:
El MIT acaba de publicar un estudio en el que, si se implementa, la ventana de contexto pasará a ser enorme a partir de ahora.
En español: El MIT rompe el Límite de Contexto de la IA manteniendo su Calidad
Responder
#006
Xaquín - 10 enero 2026 - 15:58
«no confundir el índice con el ruido.» (EDans).
Esta vez no va para sacarle miga, solo es una añoranza de lo mucho que lo usé, en su versión rural de «tocino y velocidad» en mis años profesionales.
Responder