Google y el sabotaje del «long tail» de la web para los LLM: ¿comportamiento anticompetitivo?

Llevamos años explicando que gran parte de la riqueza de internet está en su llamado «long tail«, en millones de páginas pequeñas, especializadas, actualizadas por comunidades y autores que no salen en los rankings, pero que sostienen su diversidad informativa. Más del 90% de las consultas y palabras clave pertenecen a esa larga cola, lo que convierte a toda esa periferia en el auténtico tejido conectivo de la red.

Hoy, sin embargo, esa materia prima se está cerrando para el entrenamiento y el grounding de los modelos generativos. Google acaba de hacer un cambio sutil pero muy significativo: el mes pasado, Google eliminó silenciosamente el parámetro de búsqueda que permitía mostrar cien resultados en la página de resultados de la búsqueda (Search Engine Results Page, o SERP), lo que significa que ya no puedes ver cien resultados a la vez, el máximo predeterminado ahora es diez. Parte del cierre se supone que es una defensa legítima frente a abusos, pero otra parte, parece más bien un simple cerrojazo de la plataforma. Y con él, Google está impidiendo el acceso de algoritmos de terceros a ese long tail y, en la práctica, sesgando el mercado de LLMs.

El primer problema de esto es que los crawlers de los LLM utilizan en la mayoría de los casos los resultados de las búsquedas de Google además de las suyas propias, lo que implica que Google se acaba de cargar el 90% de los resultados en los que esos LLMs se podían basar fácilmente. Estamos ante la generalización del opt-out contra la inteligencia artificial a nivel de infraestructura. Desde el 1 de julio de 2025, Cloudflare, que da servicio a cerca del 20% de la web, bloquea por defecto a los rastreadores de inteligencia artificial salvo permiso explícito, e introduce incluso esquemas de «paga por rastrear». Eso supuestamente protege a los creadores, pero también eleva una barrera sistémica: si no negocias, no entrenas. Los datos de Cloudflare y Fastly muestran además que la mayor parte del rastreo de inteligencia artificial se orienta a entrenamiento, no a derivar tráfico de vuelta a los editores. El resultado es menos acceso, y menos incentivos para abrirse.

El segundo problema viene del caos de los bots que ignoran reglas, y que ha empujado a muchísimos sitios a medidas «de brocha gorda». Tras las investigaciones que pillaron a Perplexity camuflando sus user-agents y saltándose los robots.txt y los WAF, la reacción lógica de editores y proveedores ha sido bloquear más y mejor, sin matices. Ese endurecimiento corta indiscriminadamente el acceso de LLMs, pero castiga especialmente a los que no controlan el canal de búsqueda ni poseen acuerdos de licencia masivos.

En tercer lugar, el diseño de las propias señales de Google: el mecanismo Google-Extended permite a los editores bloquear el uso de su contenido para Gemini sin penalización directa en ranking, pero Google mantiene otras rutas de uso vinculadas a Search, como los resúmenes tipo AI Overviews, fuera de ese control. Para muchos, la única defensa práctica es cerrar a todo lo que huela a inteligencia artificial. ¿A quién perjudica eso? A los LLMs que no son de Google. ¿A quién no tanto? A quien ya indexa la web entera y puede seguir accediendo mediante su Googlebot para fines «de búsqueda». La separación incompleta entre «índice de búsqueda» y «datos para IA» incentiva un bloqueo indiscriminado que termina afectando sobre todo a los rivales.

Además, está la cuestión de los acuerdos exclusivos. Mientras el acceso abierto se complica cada vez más, Google asegura licencias selectivas de alto valor, como el acuerdo de sesenta millones de dólares anuales con Reddit para datos en tiempo real, y conversaciones con grandes medios para licenciar archivos. No hay nada intrínsecamente ilegítimo en licenciar, pero si a la vez los «controles» de la web empujan a cerrar la manguera pública, el efecto combinado es claro: los datos valiosos se privatizan y se concentran en quien ya domina la distribución. Esa asimetría es exactamente la que hace décadas definimos como «apalancamiento» de poder de plataforma, una clara competencia predatoria y una flagrante violación de las leyes antimonopolio.

¿De dónde sale ese «90% perdido»? No es una cifra mágica ni una auditoría oficial, pero sí una referencia robusta: la abrumadora mayoría de términos y consultas pertenece a la larga cola. Si la infraestructura por defecto bloquea rastreadores de inteligencia artificial, si los editores, hartos de abusos, blindan sus robots.txt y sus WAF, y si Google ofrece un opt-out parcial que en la práctica obliga a «cerrar para todos» para evitar que su inteligencia artificial use tu contenido, el resultado razonable es que los LLMs ajenos pierden acceso a la gran mayoría (en torno a ese 90%) de páginas pequeñas y especializadas, que no tienen capacidad de firmar acuerdos de licencia de sus contenidos. Es una reducción funcional del long tail para terceros, mientras el incumbente retiene ventajas por su posición en búsqueda y sus contratos.

¿Es esto conducta anticompetitiva? El derecho de la competencia mira tres cosas: la posición de dominio en un mercado, la conducta de exclusión o apalancamiento, y sus efectos. Google es «gatekeeper» de facto del tráfico web: si diseña señales y políticas que, combinadas con su rastreo y con acuerdos selectivos, dejan a rivales de inteligencia artificial sin la materia prima esencial (la long tail), hablamos de una posible restricción de entradas (input foreclosure) muy similar a la que hemos visto en otros monopolios digitales. Que Francia multase a Google por entrenar inteligencia artificial con contenidos de prensa sin permiso, o que el propio buscador no separe nítidamente qué usa para Search y qué para Gemini, no ayuda a disipar la sospecha. Es un terreno perfecto para la supervisión de los reguladores de competencia y para la DMA europea.

¿Qué habría que hacer para no matar la diversidad informativa ni la innovación en inteligencia artificial? Primero, una separación técnica y jurídica clara entre la indexación de búsqueda y el uso para inteligencia artificial generativa: si quieres usar contenido para entrenar o grounding, pídelo y negocia, pero no lo mezcles con las señales de posicionamiento que en la práctica, nadie puede rechazar sin cometer un «SEOcidio». Segundo, un compromiso de no discriminación de rastreadores de inteligencia artificial que cumplan estándares, con verificación independiente. Tercero, transparencia obligatoria: quién accede, para qué, y qué devuelve en tráfico o compensación. Y cuarto, un «common carrier» de datos abiertos no privativos con licencias compatibles que proteja, precisamente, esa larga cola. De lo contrario, el long tail se convertirá en un club privado: accesible para quien posea el buscador y los cheques, e invisible para todos los demás. Una clara distorsión del panorama competitivo.

No hay que recurrir a teorías de la conspiración para entender lo que está pasando: es suficiente con ver las decisiones de producto y de política tomadas desde quien tiene poder sobre la plataforma. Si dejamos que el acceso a la larga cola de la web se cierre por diseño, el futuro de los LLMs será menos diverso, más dependiente de acuerdos bilaterales y, por supuesto, más favorable para quien ya controla la puerta de entrada. Y eso, en cualquier manual serio de competencia, debería ser cuando menos motivo de investigación.

You can read this article in English on my Medium page, «The long tail lockdown: how Google is quietly fencing off the internet for itself»

#001
Salva - 6 octubre 2025 - 13:00
Esto lo único que puede acelerar es la muerte del SEO
Qué sentido tiene invertir en el contenido de una web si tu tráfico orgánico se va al garete. La mayoría de las web especializadas vivían del longtaile.
Si matas el incentivo para crear ese contenido, esas web cerraran o se pondrán en modo «ordeñar lo que queda» es decir, con un mantenimiento mínimo tirando de mucha IA
#002
Buzzword - 6 octubre 2025 - 13:09
Lo que denota el comentario de hoy más allá de que actúe de esa forma que explica para entorpecer a la competencia, es que en realidad el mercado en internet favorece los monopolios de facto. Hace muchos años teníamos Lycos, Terra, Altavista, Yahoo, y algún otro… de esos años hasta hoy en día solo hay buscadores que han monopolizado los mercados donde están implantados, en occidente google, en Rusia yandex o la china baidu. Si que existen bing y duckduckgo pero son meros comparsas. La cuota de mercado de google es mayor al 90%. Eso en toda tierra de garbanzos es un monopolio. Lo mismo pasa con amzon, en su momento uber, tesla, apple/android en sus mercados más representativos. La «modernización» trae como dicen en Alemania la desaparición de la tienda de la tia Emma (Tante-Emma-Laden) y la supremacia de empresas estilo Lidl, Aldi, o nuestra Mercadona…
A la corta se pueden dar por jodidas las empresas que no pasen por el aro… esas empresas que no quieren la regulación de la IA de la UE, ahora por el tono del artículo, parece que se quejan de que les pongan «vallas al campo». Es la doble vara de medir, cuando ellos copian obras no problem, cuando no les dejan acceder a las obras si problem. (nota 1)
A mi lo que me da pena es cuando dan por culo al ciudadano las empresas, como por ejemplo, cuando RyanAir quiere cobrarnos por todo lo que les sale de las narices, o por las subidas de precios de los alimentos sin un parar como están haciendo todas los supermercados desde la pandemia hasta hoy… pero que google no les deje copietear a su libre albedrio, dándoles la razón, la verdad es que me importa más bien poco, más me molesta cuando apple no saca su invento nuevo en la UE (su live transaltion) por no cumplir con la privacidad de los usuarios, o porque solo sacan SORA2 para el mercado americano, etc etc ¿que les jode? pues a arrascarse, que planteen sus quejas y dentro de 10 años la UE hará lo de siempre poner tarde mal y nunca una multita… Hala ajo y agua!!
nota 1: en realidad no es que no les dejen acceder, es que usan los medios de google (que llevan años en el negocio de la búsqueda) para ese acceso. Y ahora los LLMeros quieren usar ese acceso free of charge
Es el mercado imbécil !!
- Enrique Dans - 6 octubre 2025 - 13:28
  Ahí te equivocas: tener más de un 90% del mercado no implica que deba actuar ningún regulador contra ti. El capitalismo no castiga el éxito. Lo que castiga es la competencia predatoria, es decir, que intencionadamente lleves a cabo acciones que dificulten que otros puedan competir contigo. O sea, lo que hace Google, pero se la castigaría por eso, no por tener un 90% de cuota de mercado.
  - f3r - 6 octubre 2025 - 14:48
    «El capitalismo no castiga el éxito»
    Y es por esto que todo tiende a la destrucción de los derechos individuales.
    Habrá un momento en la historia (no creo que yo lo vea) en que entre todos decidamos que la lucha contra la concentración del capital y del poder sea el objetivo prioritario de la humanidad. Todo el mal en la humanidad deriva de dicha concentración.
    - Chema - 6 octubre 2025 - 18:20
      Eso ya se intentó en 1917
      - f3r - 7 octubre 2025 - 13:19
        no
  - Buzzword - 6 octubre 2025 - 14:55
    Lo que estas diciendo que es una condición necesaria pero no suficiente. Y obviamente si, siempre que estuviéramos hablando de vírgenes vestales igual podrías tener razón…
    Pero… que esas empresas… viven de fagocitar todo lo que se mueve…
    (de ahí las compras, las fusiones, las OPAs, etc, etc)
    ¿Conoces algún caso de empresa que teniendo un 90% del mercado no se haya comportado antes de forma «predatoria» o simplemente que a mitad de ese camino no hayan cambiado sus «condiciones» y no solo comerciales y se han apalancado en su forma de actuar para ir subiendo peldaños en la cadena trófica empresarial? (pez grande se come al chico)
- jincho - 6 octubre 2025 - 13:35
  O que está tomando posiciones, defendiendo torticeramente su negocio, por si todo estalla:
  https://www.eldiario.es/tecnologia/nadie-duda-hay-burbuja-inteligencia-artificial-pregunta-explotara_1_12650967.html
  - Lua - 6 octubre 2025 - 13:48
    A eso venia yo…
    ‘Red Flag’: Analysts Sound Major Alarms As AI Bubble Now ‘Bigger’ Than Subprime
#010
Benji - 6 octubre 2025 - 15:42
El campo se va despejando para otro buscador…
#011
Ferran - 6 octubre 2025 - 16:51
Enrique, por vez primera en más de quince años no he encontrado en la bandeja de entrada tu correo. ¿Es un problema mío o alguien más te lo ha reportado? Gracias