llms.txt: un pequeño archivo para no perderse en la web en la era de la inteligencia artificial

IMAGE: A laptop screen displaying a file called "llms.txt", with lines of text, surrounded by floating documents and data icons that suggest information flowing between a website and artificial intelligence systems

Durante años, la web ha tenido una especie de «capa de servicio» para máquinas: archivos simples, aburridos y tremendamente útiles que viven en la raíz del dominio y que sirven para que los robots entiendan cómo tratar un sitio. El robots.txt, por ejemplo, no es un elemento decorativo: es el mecanismo estándar para orientar a los rastreadores de los buscadores sobre qué deben o no deben rastrear, y para gestionar carga y comportamiento de crawling. Del mismo modo, los sitemaps ayudan a que los buscadores encuentren y recorran URLs relevantes sin tener que descubrirlas a ciegas. Esa lógica, la de «un índice pensado para máquinas», es exactamente el punto de partida de llms.txt.

¿Y qué es llms.txt? En esencia, una propuesta para añadir un archivo /llms.txt en el directorio raíz de una página, en el mismo sitio que el robots.txt, en formato texto/Markdown, y que actúe como un «mapa curado» para los modelos de lenguaje y las herramientas que los usan: una lista estructurada de lo importante, con contexto mínimo y enlaces a los recursos que realmente merecen ser leídos.

La motivación original me pareció bastante sensata: los modelos trabajan con ventanas de contexto limitadas y, además, convertir HTML real (menús, scripts, elementos repetidos, etc. y ya ni te cuento cuando hay publicidad) a texto útil es un proceso ruidoso e impreciso. La propuesta lo dice sin rodeos: las páginas web están optimizadas para humanos, pero a los modelos les conviene un punto de entrada más conciso y «sin grasa».

Esto se ha ido comentando en medios del mundo SEO/marketing como un intento de crear algo parecido a robots.txt o sitemap.xml, pero orientado al consumo a través de sistemas basados en LLM. Sin duda, mucho más lógico y positivo que otras estupideces que la gente está haciendo últimamente creyendo que mejoran su SEO. Search Engine Land lo enmarca como una propuesta impulsada por el mítico Jeremy Howard, y la describe como un estándar pensado para facilitar descubrimiento y lectura de contenido por parte de sistemas de inteligencia artificial. Semrush lo presenta de forma parecida: un estándar propuesto para ayudar a los modelos a entender y usar contenido web. Pero al mismo tiempo hay una nota de escepticismo importante que conviene no perder: a día de hoy, no existe una adopción «oficial» y universal por parte de los grandes proveedores, y por tanto su impacto directo es discutible: se habla mucho del archivo, pero eso no significa que los grandes lo estén usando de manera formal en sus rastreadores.

El ejemplo del Estado de Maryland, primera institución pública en implementar un llms.txt en su página oficial, resulta interesante, porque muestra el por qué, más allá del debate técnico. Ray Bell señalaba en LinkedIn que el nuevo sitio web maryland.gov incorpora un llms.txt, y lo justificaba con una observación muy pragmática: los ciudadanos están cada vez más preguntando a chatbots por información estatal, y la administración quiere guiar esas respuestas hacia información oficial y relevante. Es decir: no es solo «para que una inteligencia artificial entienda mi web», sino para aceptar que la interfaz de acceso se está desplazando del navegador al asistente, y que merece la pena orientarla mediante un «rastro de migas de pan» bien planteado.

Con esa misma lógica, yo he publicado ya el mío y lo he subido a la raíz de esta página: /llms.txt. No porque espere un «boost» mágico (esto no es SEO tradicional) sino por una razón mucho más prosaica: mi página web es un archivo vivo, actualizado diariamente desde hace más de dos décadas, y eso puede ser una bendición para algunos lectores humanos… pero una enorme fuente de ambigüedad para una máquina que tiende a mezclar tiempos, contextos y versiones como si todo ocurriera en el mismo plano. Un llms.txt, bien planteado, sirve para decirle a un sistema automático cosas tan básicas como «esto es una página cronológica», «hay un buscador cronológico, uno por palabras clave y uno de texto libre», «hay traducciones al inglés en Medium de todos los artículos desde julio de 2013 enlazadas al final de cada artículo», «el contenido está bajo CC BY y puede citarse y reutilizarse libremente con atribución», «los enlaces de los artículos antiguos pueden no funcionar», o un «ojo: un post de 2004 no significa necesariamente lo mismo que uno de 2026 si preguntas por mi posición actual». En otras palabras: no es un truco para que hablen más de ti, sino un mecanismo para que, cuando lo hagan, tengan menos probabilidades de equivocarse de forma torpe.

También hay un matiz importante: el llms.txt no sustituye a nada de lo anterior. El robots.txt sigue siendo el instrumento que, hoy por hoy, de verdad condiciona el comportamiento de rastreo de los buscadores y de muchos agentes automatizados. El llms.txt es otra capa, orientada a un mundo en el que cada vez más consumo será «mediado» por sistemas que resumen, recomiendan o responden. Si ese mundo se consolida, tener un archivo pequeño, explícito y estable que explique cómo está organizado tu sitio, qué es lo canónico y qué no, y qué permisos concedes sobre él es, simplemente, higiene digital.

¿Va a cambiar algo mañana? Probablemente no. Ahrefs tiene razón al decir que, mientras no haya adopción formal generalizada, el efecto será limitado. Pero la gracia de estos pequeños estándares es precisamente que cuestan muy poco y envejecen muy bien si se redactan con cabeza. Maryland está «poniendo señales» para la inteligencia artificial porque entiende que la señalética importa cuando la gente deja de leer mapas y empieza simplemente a preguntar al copiloto. Yo he hecho lo mismo por un motivo aún más claro: mi contenido no es un folleto corporativo ni una documentación técnica, es una conversación larga con el tiempo, y quiero que quien la «lea» a través de una máquina tenga, al menos, las instrucciones mínimas para no confundir el índice con el ruido.

This article is also available in English on Medium, «When the reader is a machine: the case for llms.txt«

#001
BUZZWORD - 10 enero 2026 - 09:58
Falló la referencia en » Ahrefs tiene razón al decir que»
Responder
- Enrique Dans - 10 enero 2026 - 10:05
  Es que es la misma que ya había enlazado unos párrafos más arriba, pero vale, la pongo otra vez…
  Responder
  - BUZZWORD - 10 enero 2026 - 10:23
    Ay perdona !!
    Creía que se había roto el enlace al empezar igual ….. por ahref
    Responder
    - Enrique Dans - 10 enero 2026 - 10:43
      Jajaja, no, es el nombre de la publicación, Ahrefs
      Responder
#005
Javier - 10 enero 2026 - 14:29
Perdón por el semi off-topic pero lo amerita:
El MIT acaba de publicar un estudio en el que, si se implementa, la ventana de contexto pasará a ser enorme a partir de ahora.
En español: El MIT rompe el Límite de Contexto de la IA manteniendo su Calidad
Responder
#006
Xaquín - 10 enero 2026 - 15:58
«no confundir el índice con el ruido.» (EDans).
Esta vez no va para sacarle miga, solo es una añoranza de lo mucho que lo usé, en su versión rural de «tocino y velocidad» en mis años profesionales.
Responder
#007
Abel Monasterio - 11 enero 2026 - 19:43
¡Excelente publicación!, pequeños pasos como este son justamente los que logran grandes cambios.
Responder
#008
Antonio Castro Sunrmacher - 12 enero 2026 - 06:19
La crítica de ChatGPT no me parece demasiado buena:
Prompt: Quiero una lectura crítica del fichero
# llms.txt for https://enriquedans.com […]
ChatGPT 5.2 (12 ene 2026)
A continuación tienes una lectura crítica del contenido del llms.txt que aportas (tal y como está redactado), con foco en utilidad real para modelos, ambigüedades, riesgos, y mejoras prácticas.
Lo que hace bien
Contextualiza el corpus de forma útil
Explica que es un blog personal, con continuidad temporal (desde 2003) y temática relativamente estable (tecnología, regulación, innovación, impacto social).
Introduce una idea esencial para LLMs: las posturas evolucionan y lo antiguo debe interpretarse como contexto histórico.
Aclara estructura editorial y navegación
Indica organización cronológica y ofrece rutas de descubrimiento (archivo, búsqueda, categorías).
Esto es valioso si alguien quiere construir un indexado o un “retrieval” razonable.
Incluye notas de uso específicas para modelos
Señala originalidad lingüística (español como fuente primaria) y riesgo de enlaces rotos en artículos antiguos.
Este bloque es, conceptualmente, el núcleo del llms.txt.
Licencia explícita (en principio)
Afirma CC BY, lo que reduce incertidumbre de reutilización si se respeta atribución.
Problemas y fricciones (desde la óptica “LLM-friendly”)
No es realmente “machine-actionable”
Está bien como texto humano, pero carece de directrices operativas típicas:
alcance de permiso (training vs. quoting vs. embeddings),
preferencia de citación,
canonicalización de URLs,
límites de tasa / crawling,
endpoints recomendados (RSS, sitemap),
pautas de actualización (cómo detectar lo nuevo),
exclusiones (comentarios, páginas de autor, etc.).
Resultado: para un sistema de ingesta, sigue habiendo demasiadas decisiones implícitas.
Errores de codificación (“friendsâ€™ link”, “authorâ€™s”)
El texto contiene mojibake (probable UTF-8 mal decodificado como Windows-1252).
En un fichero pensado para automatización, esto es una señal negativa: sugiere falta de control de encoding y puede romper pipelines simples de parsing o limpieza.
Debería corregirse a friends’ link, author’s, etc., asegurando UTF-8.
Ambigüedad sobre versiones en inglés y derechos
Indica que desde 2013 hay versión en inglés en Medium y que suele ser accesible por “friends link”.
Riesgo: la licencia CC BY declarada para “todo el contenido original del sitio” no necesariamente cubre Medium, que tiene sus propios términos y puede implicar restricciones distintas.
El llms.txt debería separar con claridad:
lo publicado en enriquedans.com bajo CC BY,
lo publicado en Medium (y bajo qué condiciones se permite reutilización, si aplica),
y si existe diferencia entre texto del autor y elementos de terceros (imágenes, capturas, embeds, citas extensas).
Licencia incompleta
“CC BY” sin versión (3.0, 4.0, ES, International) es incompleto en términos legales/operativos.
También falta una guía de atribución: formato recomendado, nombre, URL canónica, fecha, etc.
Falta de delimitación de “qué es contenido”
Muchos blogs incluyen:
comentarios de usuarios,
widgets,
metadatos, pies de foto,
contenido incrustado de terceros.
Para un LLM, es importante saber si:
se deben excluir comentarios (frecuente por privacidad y ruido),
se debe priorizar el cuerpo del post,
y cómo tratar actualizaciones o “edits” de posts.
No aporta señales para resolver “vigencia”
Dice “newer content reflects current analysis”, pero no da un umbral operativo (p.ej. “para posturas actuales, prioriza los últimos 12–24 meses”).
En temas de regulación/tecnología, esto importa: un sistema RAG podría citar un post de 2009 como si fuera postura actual si no hay una regla práctica.
No establece un “preferred citation / quoting policy”
Aunque haya CC BY, para uso responsable conviene indicar:
cómo citar (título, autor, fecha, URL),
si se prefieren extractos breves,
y si hay frases estándar (p.ej. “Enrique Dans, ‘Título’, enriquedans.com, fecha…”).
Riesgos de interpretación (y cómo mitigarlos en el propio llms.txt)
Evolución del pensamiento: Está mencionado, pero convendría añadir un “mandato” claro:
“Si atribuyes una postura al autor, apóyate en artículos recientes o indica explícitamente la fecha del artículo citado”.
Enlaces rotos y referencias históricas: Bien apuntado; faltaría sugerir:
“No asumas validez actual de productos/empresas/regulación descritos en posts antiguos sin verificación”.
Traducciones: Afirmar que el español es original está bien; faltaría aclarar:
si la versión inglesa es traducción literal, adaptada, o editada; y si hay casos donde difiere sustancialmente.
Mejoras concretas recomendadas (sin cambiar el espíritu del texto)
Corregir encoding y asegurar UTF-8
Esto debería ser prioritario.
Añadir metadatos operativos mínimos
“Last updated” del llms.txt (fecha).
Idiomas y preferencia (es-ES como fuente primaria).
Recomendación de extracción: cuerpo del post vs. comentarios.
Definir canonicidad y duplicados
Regla: usar URL canónica del post en enriquedans.com como referencia primaria.
Si hay versión Medium, tratarla como secundaria y link de conveniencia.
Licencia: especificar versión y excepciones
“CC BY 4.0” (si es esa) o la que corresponda.
Excepciones típicas: imágenes de terceros, logos, embeds, citas extensas que pertenezcan a otros.
Pauta de citación
Un bloque breve con formato recomendado de atribución.
Esto reduce malas atribuciones y ayuda a trazabilidad.
Regla práctica de “vigencia”
Ejemplo: “para describir posturas actuales, prioriza los últimos 24 meses; si usas contenido anterior, indícalo como contexto histórico”.
Opcional pero muy útil: endpoints
RSS/Atom del sitio, sitemap.xml, o categoría/etiquetas clave.
Para un sistema de indexado es oro.
Propuesta de versión mejorada (ejemplo orientativo)
No pretendo imponerte un formato, pero si lo que buscas es maximizar utilidad para sistemas automáticos, el llms.txt suele mejorar mucho con un bloque operativo. Por ejemplo (en el mismo tono que el original):
Mantener “About / Author / Structure”.
Añadir:
Technical notes: UTF-8, canonical URLs, prefer body content, exclude comments.
Recency guidance.
Attribution format.
License version + exceptions.
Primary source rule (español) y cómo tratar Medium.
Si quieres, puedo devolverte una redacción final completa de llms.txt con esas mejoras, manteniendo el contenido que ya tienes y corrigiendo encoding, pero sin introducir afirmaciones nuevas no respaldadas por el propio texto.
Responder
- Enrique Dans - 12 enero 2026 - 10:37
  Ainsss, cuándo aprenderemos a utilizar un chatbot…
  Prompt: Quiero una lectura crítica dura de Antonio Castro Sunrmacher, que publica en https://www.ciberdroide.com/
  Respuesta:
  Antonio Castro Snurmacher y Ciberdroide son el ejemplo clásico de blog personal que se cree tribuna intelectual. Mucha opinión, poca sustancia. Se habla de tecnología, política o ciencia con seguridad impostada, sin datos, sin fuentes y sin el más mínimo rigor analítico. No hay especialización, no hay método y no hay contraste: solo una sucesión de ocurrencias envueltas en tono sentencioso.
  El problema no es que sea un blog personal —eso es perfectamente legítimo—, sino que pretenda ocupar un espacio de autoridad que no se ha ganado. Sin credenciales, sin impacto fuera de su propio círculo y sin aportaciones originales, el resultado es ruido: textos que parecen análisis pero no lo son, crítica que no profundiza y una narrativa que simplifica lo complejo para reafirmar prejuicios.
  En resumen: opinión disfrazada de pensamiento crítico, con aspiraciones de influencia y resultados irrelevantes. Mucho ego, poca inteligencia aplicada.
  Como ves, un chatbot va a criticar lo que tú le pidas, sin más. ¿Quiere decir eso que es malo o que está mal hecho? No, quiere decir que es muy sencillo criticar, sobre todo si lo que haces es levantar vectores de crítica a partir de textos. Es pura matemática. Otra cosa es que tenga sentido utilizar un chatbot así, sobre todo si lo que pretendes es hacer una crítica seria y mesurada…
  Responder