Durante años, la inteligencia artificial se ha entendido como una disciplina impulsada por el desarrollo de algoritmos: cuanto más complejos e innovadores, mejores los resultados. Sin embargo, esa narrativa omite un componente esencial sin el cual ningún modelo funciona: los datos. En este momento, mientras los focos iluminan a los gigantes que desarrollan modelos fundacionales, se libra otra batalla menos visible, pero igual o más estratégica: la del control sobre los datos que alimentan esas inteligencias artificiales. Y es precisamente ahí donde asistimos a un proceso acelerado de consolidación.
¿Qué es la industria del dato y por qué importa ahora más que nunca? La industria del dato está compuesta por empresas que recolectan, procesan, estructuran, almacenan y venden datos. Algunas, como Thomson Reuters o Moody’s, lo hacen desde hace décadas con modelos de negocio asentados. Otras, como Clearview AI o Harbr, han emergido con propuestas específicas en nichos como el reconocimiento facial o los marketplaces de datos. También están las firmas intermedias de infraestructura como Fivetran, que conectan múltiples fuentes para facilitar el flujo de información entre sistemas. Y otras, como Reddit y muchas más, se reconfiguran para convertirse en compañías de datos e incrementar su atractivo en el mercado.
Este ecosistema fragmentado ha crecido exponencialmente en los últimos diez años, alimentado por capital riesgo y soluciones hiperespecializadas. Según PitchBook, entre 2020 y 2024 se invirtieron más de 300,000 millones de dólares en startups de datos en más de 24,000 operaciones. Muchas de estas compañías ofrecían productos que resolvían problemas muy específicos dentro del ciclo de vida del dato, a menudo construidos en torno a una sola funcionalidad. Pero ese enfoque, que funcionó durante un tiempo, se convierte cada vez más en un obstáculo para las aspiraciones de la inteligencia artificial.
En ese sentido, la consolidación que estamos viendo es un síntoma de una nueva etapa: las recientes adquisiciones de Databricks (comprando Neon por 1,000 millones) o de Salesforce (absorbiendo Informatica por 8,000 millones) no son casuales. Todas estas operaciones comparten un mismo objetivo: adquirir tecnología que permita a las grandes corporaciones dar el salto a una inteligencia artificial verdaderamente útil. Como explicaba Gaurav Dhillon, fundador de Informatica y ahora en SnapLogic, «quien quiera aprovechar el imperativo de la inteligencia artificial debe rehacer sus plataformas de datos desde cero».
En esa línea, el caso de Fivetran comprando Census ilustra cómo incluso empresas maduras deben buscar piezas que les faltan para ofrecer soluciones integradas. Hasta ese momento, Fivetran solo permitía mover datos hacia los almacenes en la nube; Census, por su parte, ofrecía justo lo contrario: extraerlos. Juntas, proporcionan una solución de ida y vuelta imprescindible para alimentar modelos de inteligencia artificial.
De hecho, podría ocurrir que la inteligencia artificial no fuese sólo cuestión de algoritmos, sino de quién posee los datos. Desde OpenAI negociando con Reddit y Stack Overflow para acceder a sus corpus de conversaciones, hasta Clearview AI vendiendo bases de datos faciales extraídas de internet, lo que vemos es una guerra por los datos como tales. Como decía Dhillon, ignorando el enorme caudal de investigación anterior a la inteligencia artificial generativa, «nadie nació con inteligencia artificial: esto tiene apenas tres años». Pero quien posea o controle los datos más relevantes tiene una ventaja competitiva inigualable. De ahí la creciente presión para que los grandes jugadores de inteligencia artificial y los gestores de datos se fusionen o colaboren.
La propia estructura de la industria del dato, construida sobre capas tecnológicas incompatibles, es parte del problema. Los clientes están cansados de usar soluciones que no hablan entre sí, que capturan metadatos de forma redundante y que exigen una integración constante. En ese caldo de cultivo, la consolidación no solo es lógica: es casi inevitable.
¿Qué podemos esperar del futuro inmediato? Por un lado, esta ola de adquisiciones da una salida razonable a muchas startups que no encontraban financiación ni condiciones para salir a bolsa. Para los compradores, adquirir estas firmas supone no solo incorporar tecnología, sino talento, clientes y posicionamiento. Como dice Derek Hernandez, analista de PitchBook, «si Salesforce o Google no compran a estas empresas, sus competidores lo harán». Pero por otro lado, hay una pregunta crucial: ¿tiene sentido que las compañías que gestionan los datos sigan existiendo por separado de las que desarrollan modelos de inteligencia artificial? Si el valor está en la fusión, ¿no estaremos asistiendo al preludio de una industria totalmente integrada, donde los límites entre proveedor de datos y constructor de inteligencia artificial se difuminan?
El verdadero campo de batalla parece estar en la infraestructura invisible del conocimiento. Si algo está claro, es que el futuro de la inteligencia artificial ya no se juega únicamente en los laboratorios de investigación, sino en los despachos donde se deciden adquisiciones, licencias y fusiones. En un mundo donde los datos son el nuevo petróleo, la forma en que se recolectan, procesan y consolidan determinará no solo qué modelos triunfan, sino también qué sesgos arrastran, qué verdades aprenden y qué valores refuerzan.
Entender la consolidación de la industria del dato no es solo una cuestión técnica o empresarial. Es comprender el nuevo mapa del poder digital. Y ese mapa se está redibujando ahora mismo, en tiempo real.
You can also read this article in English on my Medium page, «The behind-the-scenes struggle for AI’s lifeblood: data«


Lo que me sorprende es que Google Photos no sesa ahora de espacio ilimitado (para poder entrenar algoritmos) cuando Youtube, con videos mucho más pesados, sí lo es.
Por otro lado ahora también se alzará una batalla en el lado opuesto: Estoy creando una web para músicos con music sheets y lo que menos quieren es que los GPT les roben esa info y base de datos depurada.
¿Qué me piden? Que solo se puedan registrar humanos. Y si no te registras, nanay de la china de acceso a los datos. Incluso se pueden plantear que la gente pague por el acceso mediante suscripción o similares.
Si se popularizan estas webs que NO quieren ser remezcladas con el resto, internet se convertirá en un paraje muy extraño para los que lo conocimos con todo abierto y marquesinas que iban de lado a lado entre gifs
Siento desanimarte, pero el robots.txt, ni el ” meta name=»robots» content=»noindex»”, desde Google, hasta el último mindungui que ponga un spider en marcha (crawler/scrapper), se lo pasa por el forro de los cojones, hablando claro y mal. Y lo he comprobado no una, sino mil veces. Digan lo que digan los susodichos.
Todo lo más, podrás poner trabas. Tener una web en un ISP, pero la base de datos en un servidor aparte (un NAS casero, por ejemplo, al que solo aceptara peticiones de dicha web).
Para montar el foro te recomiendo (lo use muchos años en mi propio foro) Invision. Es de pago y no excesivamente difícil de configurar, aunque tiene su que, pero lo puedes adaptar, tunear y hacerlo bonito a tu gusto. La alternativa seria utilizar Simple Machines Forum (SMF), es código abierto, multitud de opciones y no demasiado confuso para configurar y lo más parecido a Invision.
Cerramos nuestro foro en 2006 tras 5 años intensivos (mas de 3000 usuarios y una media de 200 fijos diarios), y como te digo, solo se podía acceder por invitación, validación telefónica, usuario y contraseña. Y aun así, hemos visto post del foro en internet.
Si te puedo ayudar con ello (aunque ya te digo, desde 2006…) cuenta conmigo.
Muchas gracias por el ofrecimiento Lua.
El factor humano de copia+pega es inevitable. Pero acceso por usuario/yubikey o sin password podrian limitar mucho el acceso por un tiempo.
Passwordless es seguro vs. bots? No todos, pero la mayoría de momento sí
A tanto no he llegado (recuerda que estoy retirado y algunas cosas, aunque intente estar al día, se me escapan), pero si la concepción de la web, implica una página con resultados (comentarios), da por seguro que, de una manera u otra, obtendrán la información…
Es como cuando discutíamos aquí lo de Devian-Art y las imágenes… por más que tus imágenes estuvieran en modo privado (como las mías), se usaron para entrenar a la IA… (y de ahí el pollo).
Si puedo ayudarte o poner un servidor de pruebas durante un cierto tiempo. aquí estoy.
El símil del petróleo no me vale. Porque los combustibles son neutrales y solo tienen un uso . Aportar la energía necesaria para producir un cambio (hacer la comida o destrozar un bosque).
Los datos no son neutrales, depende del sesgo que contenga la información compuesta por eses datos.
Pueden destrozar a un político o pueden auparlo.
En el caso de hoy de Sánchez , acaba de recibir casi 23 mil millones como ayuda europea, pero le han quitado 1.100 millones (que puede recuperar)… la prensa , incluida alguna que se dice «de izquierdas», resalta los 1.00O (sin aclarar que son recuperables) en vez de los 23.000 ya ganados… Y son los mismos datos… pero usados de distinta forma… es decir, darán al lector una energía diferente : dirigida a apuntalar al presidente o má bien incendiarlo.
Y no hay más cera que la que arde. Aunque en este caso no es tanto el uso de la energía inicial, como el uso de la luz (que ilumina la noticia… o la apaga).
El verdadero campo de batalla de la IA se traslada de los laboratorios a los despachos donde se negocian adquisiciones y licencias. En un mundo donde los datos son el nuevo petróleo, la forma en que se recolectan, procesan y consolidan determinará qué modelos de IA triunfan y qué valores y sesgos se perpetúan. Comprender la consolidación de la industria del dato es entender cómo se está redibujando el mapa del poder digital globa
se te ha cortado el último token…
XDDDDDDD (por Dioxsss…)
¿Poder Digital de los datos?
Un ejemplo
Hace unos años la gente pagaba un pastón por enciclopedias en papel… con datos que cuando los comprabas ya estaban obsoletos. Poco después consiltabas la encarta. Y en nada de tiempo la Britannica estaba on line, y al poco wikipedia la superaba gracias a la COMUNIDAD. Cuando hoy buscas algo tienes dos opciones:
a) La standard buscar en internet a la manera clásica
b) Recurrir a un motor con IA que busque en internet, como perplexity, o con notebooklm
Ahí están los datos. No en los gepetos, que procesan y enmierdan a los que confian en sus resultados.
¿Cuánto tiempo ha de pasar para que nos caigamos del guindo? Los LLMs son loros estocásticos que fallan más que una escopeta de feria.
Y cuanto más avanza el tiempo… más se «difuminan» los datos. AL final tendremos una demencia generalizada
En una enciclopedia Espasa de 1905, su contenido está desafasado pero es lo que es. Nadie lo cambia. Para bien o para mal.
Vete ahora a buscar hechos que recuerdas de hace 20 ó 30 años, salvo que sea muy notorio y este en las hemerotecas, la mayoría se han enterrado en el sueño de los justos, y como busques algo p.ej, de un tal Nadal, solo encontraras cosas del tenista, o de su tío, o del premio de literatura con suerte,… pero alguna noticia local… olvídate…
Los RAG buscan por similitud semántica en sus colecciones eso es de todo menos preciso
Esa es la dictadura de los datos, que cuanto más pequeñitos sean menos encuentras. Lo único que si son un tesoro son las hemerotecas cuando digitalizan y lo ponen a disposicion de todos, pero aun asi hay muy poquito. Os lo dice un aficionado a buscar tesoros históricos en nuestros periódicos…
Por cierto todo esto es un OFFTOPIC. Estoy intentando tener un RAG con IA local, y es una locura como alucinan y se inventan cosas… así que me va a usted a contar… de datos, si si, poder digital
¿Que RAG usas?
En local he probado la de AnythingLM y LMStudio.En local he utilizado autogen, crew, langchain,n8n, rivet.. me falta probar flowise…pero ahora estoy en mi 2.0 directamente con Langchain que al final todas lo usan. He de decir que notebookLM es la que mejor me ha funcionado, pero claro no es privada, y en cualquier momento te la pueden quitar…
Ya… google no es de fiar
No es que no sea de fiar, pero no confío en ninguna app online, hoy existe y mañana te la cierran. Datos son datos…
Y el cementerio de google está lleno de muchas apps.
Recuerdo lo que me gustaba google reader… ¿me tengo que fiar ahora de NotebookLM no la van a cerrar?
A veces creo que criticais a los comentaristas creyendo que somos neofitos, por el hecho de tener distinta opinión, además avalada por datos factuales.
«Al final tendremos una demencia generalizada», Pero no será, de ninguna manera, por la IA, sino por lo digital.
No es la primera vez que lo digo, y doy al referencia: «Mad Max. Más allá de la cúpula del trueno». Toda la secuencia (sublime, entre muchas otras), de la exposición del mito de la venida del «Capitán-Capitán» por parte de la tribu de los niños, te lo explica con todo detalle en analógico. En digital, hubiese sido IMPOSIBLE.
En definitiva, es lo que yo nombré, hace años, como «El Alzheimer de la civilización». Así que vamos.
Bueno, siempre podemos guardar en el otro extremo del universo-por ejemplo, Nueva Zelanda- una gran biblioteca analógica preservada de los elementos que pueda ser consultada por cualquier civilización futura tras el gran apocalipsis cognitivo.
Ahora que lo pienso, esto me resulta familiar… ;-D
Mientras tanto en Cloudfare:
Cloudflare ahora, de forma predeterminada, bloqueará a los bots de IA para que no rastreen los sitios web de sus clientes.
La compañía también introducirá un sistema de «pago por rastreo» para dar a los usuarios un control más detallado sobre cómo las empresas de IA pueden acceder a sus sitios.
https://www.technologyreview.com/2025/07/01/1119498/cloudflare-will-now-by-default-block-ai-bots-from-crawling-its-clients-websites/
¿Cloudflare? ¿Ese que cada vez que vas a entrar en según qué páginas (antes NO pasaba), sale un pantallazo que dice que está comprobando que eres un humano, y luego que si patatín, que si patatán, que si marca esto, que si ráscate aquello, que si cierra un ojo, que si saca la lengua, etc., etc…? ¡¡¡Me cag* en sus muertos mataos!!! Qué fatiga.