Google, la inteligencia artificial y el día en que el buscador decidió dejar de ser neutral

Durante años, Google construyó algo extraordinariamente valioso: no solo un producto, sino un hábito cognitivo global. Buscar en Google no era simplemente acceder a información: era confiar en que esa información estaba razonablemente ordenada y filtrada. No era perfecta, de acuerdo, pero sí era suficientemente fiable como para servir de punto de partida. El trabajo de verificación, obviamente, lo tenía que hacer uno mismo (y muchos no lo hacían), pero esa confianza, acumulada durante décadas es el verdadero activo de la compañía. Y ese es precisamente el activo que hoy está en juego.

La introducción de los AI Overviews marcó un cambio profundo en la naturaleza del buscador. Sobre todo, porque Google dejaba de ser un intermediario para convertirse, cada vez más, en un narrador. Ya no se limitaba a mostrar enlaces: ahora sintetizaba, interpretaba y respondía directamente, e posición destacada, por encima de los resultados de búsqueda. El paso podía parecer lógico desde el punto de vista tecnológico y competitivo, ni más ni menos que lo que le demandaba el mercado, pero es profundamente problemático desde el punto de vista de la confianza.

Los datos más recientes lo ilustran con claridad. Un análisis independiente publicado por el New York Times basado en el benchmark SimpleQA sitúa la precisión de estos resúmenes en torno al 91%, que así, a primera vista, podría parecer una cifra razonable. Pero cuando esa cifra se traslada a la gigantesca escala de Google, con sus más de cinco billones de búsquedas anuales, el resultado cambia de naturaleza: supone decenas de millones de respuestas erróneas cada hora. Eso ya no es un margen de error: es un fenómeno sistémico.

Y el problema no termina ahí. Además, más de la mitad de las respuestas consideradas correctas están mal fundamentadas: enlazan a fuentes que no respaldan la información que presentan. Es decir, que incluso cuando aciertan, lo hacen de forma difícilmente verificable. El usuario, en el estilo que ya todos vamos empezando a conocer de los chatbots, recibe una respuesta con apariencia de autoridad, pero carente de un mecanismo claro para contrastarla. No solo son mentiras: son mentiras disfrazadas y difíciles de comprobar.

Esto no es un bug: es una característica inherente a la tecnología utilizada. Los modelos generativos no conocen la verdad: estiman probabilidades. Funcionan como lo que Emily Bender definió en su día como «stochastic parrots«, loros probabilísticos que producen secuencias plausibles sin comprender realmente su significado. Esa limitación no es necesariamente problemática en contextos experimentales, pero lo es cuando se integra en el corazón del sistema de acceso a la información de cientos de millones de personas que, además, confían ciegamente en que «lo que dice Google» es la verdad.

Google lo sabe. Siempre lo ha sabido. No en vano, la arquitectura que sustenta toda esta revolución, los transformers, nació en sus propios laboratorios con el célebre paper «Attention Is All You Need«. Google no es un actor rezagado en la inteligencia artificial generativa: es, en muchos sentidos, su origen. Precisamente por eso, su aparente lentitud inicial no era falta de visión, sino exceso de ella. Entendía mejor que nadie las implicaciones para la compañía (y para todos) de desplegar masivamente una tecnología inherentemente imperfecta.

Ahí encaja perfectamente el marco del «Innovator’s Dilemma« del gran Clayton Christensen. Google no dudaba porque no pudiera innovar, sino porque esa innovación amenazaba el núcleo de su propuesta de valor. Mientras startups como OpenAI podían permitirse experimentar, equivocarse y corregir sobre la marcha, Google tenía mucho más que perder: su credibilidad. Lo expliqué hace tiempo en artículos como «Google y el problema de ser quien es» o «Google y el dilema del robot borracho«: un chatbot puede alucinar y seguir siendo útil, según lo que le pidas y lo que sepa quien se lo pide. Pero un buscador no puede hacerlo sin erosionar su propia razón de ser.

Sin embargo, la presión competitiva ha terminado imponiéndose: Google optó por desplegar sus AI Overviews a gran escala, e integrándolos en el lugar más visible de su producto. Según la propia compañía, el sistema ha alcanzado ya a más de mil millones de usuarios y sigue expandiéndose rápidamente. Pero el problema es que la escala no corrige los errores: los amplifica.

Innumerables casos concretos ilustran bien la naturaleza del fallo. El sistema puede ofrecer respuestas incorrectas incluso cuando enlaza a fuentes correctas, o construir conclusiones erróneas a partir de datos válidos. Puede añadir contexto adicional que introduce nuevos errores sobre una respuesta inicialmente correcta. O puede apoyarse en fuentes de baja calidad, como publicaciones en redes sociales, con mayor frecuencia cuando se equivoca. Todo ello envuelto en una presentación limpia, directa y con autoridad aparente. El resultado, como no podía ser de otra manera viniendo del buscador en el que todos llevamos décadas confiando, es una ilusión de certeza.

Ese es el verdadero cambio: no solo se producen errores, sino que estos se presentan de forma más convincente que nunca. El usuario ya no ve una lista de enlaces entre los que debe navegar: ve una respuesta única, sintética, colocada en la posición de mayor visibilidad y respaldada implícitamente por la marca Google. La fricción desaparece. Y con ella, también, una parte esencial del pensamiento crítico.

Diversos análisis apuntan además a un efecto colateral significativo: la reducción del tráfico hacia las fuentes originales. Si el usuario obtiene una respuesta directa, la necesidad de hacer clic disminuye. Google deja de ser un intermediario que distribuye atención para convertirse en un destino que la retiene. Y eso, combinado con respuestas potencialmente erróneas, redefine por completo la ecología de la información.

Y lo más interesante del tema es que esta tensión no es exclusiva de Google. Microsoft, uno de los actores más agresivos en la comercialización de la inteligencia artificial generativa, reconoce implícitamente el problema. En sus propios términos de uso, Copilot se define como una herramienta «for entertainment purposes only», advirtiendo explícitamente que puede cometer errores y que no debe utilizarse para decisiones importantes. Aunque la compañía ha intentado posteriormente matizar ese lenguaje calificándolo como un vestigio de versiones anteriores, el mensaje subyacente resulta difícil de ignorar: las mismas empresas que nos invitan a integrar estas herramientas en nuestro trabajo cotidiano se protegen legalmente recordándonos que, en el fondo, no son fiables. La diferencia es que Microsoft puede permitirse ese matiz, porque Copilot no es, al menos todavía, la puerta de entrada al conocimiento global. Google, en cambio, sí lo es. Y ahí es donde el riesgo cambia completamente de escala.

Incluso los sistemas más avanzados siguen lejos de ofrecer garantías sólidas en términos de exactitud: las alucinaciones y las respuestas erróneas no son un problema de funcionamiento, sino de planteamiento. La cuestión, por tanto, no es si Google puede mejorar estos sistemas. Lo hará. La cuestión es si puede permitirse desplegarlos como lo ha hecho antes de que esa mejora sea suficiente.

Porque aquí no estamos hablando de un producto nuevo compitiendo en un mercado emergente. Estamos hablando de una infraestructura central del ecosistema informativo global. Una infraestructura que ahora decide asumir, de forma explícita, las limitaciones de una tecnología que produce errores por diseño.

Durante años, Google evitó ser un oráculo. Se limitó a señalar dónde estaban las respuestas. Hoy, empieza a ofrecértelas directamente. Y cuando el oráculo miente, el problema no es que se equivoque. Es que deja de ser el oráculo.

This article is available in English on Medium, «AI Overviews and the quiet erosion of Google’s credibility» (yes, I know, Medium has a paywall and all that… but if you click on this link, I promise there will be no paywall at all!)

#001
Dani - 9 abril 2026 - 11:34
Precisamente, el desastre que ha sido la introducción de la inteligencia artificial en Google para mí ha sido el empujón definitivo que necesitaba para irme a probar los chatbots como ChatGPT y Claude, que ahora, para bien y para mal, se han convertido en mis recursos habituales para buscar información.
Por cierto, el buscador de Google con IA no solo te da malas respuestas: ¡en cuanto le pides algo con algo de complejidad o distinto de lo habitual, es incapaz de entender lo que buscas!
Responder
#002
NOSTRAM - 9 abril 2026 - 12:11
Mi experiencia con la alucinaciones de Google han sido tremenda.. concretamente buscaba una serie de contenidos muy específicos que deberían aparecer en el BOE yo no sabían cuál, le digo lo que tiene que buscar y empieza a encontrar respuestas exactamente lo que yo quería igual que bien, por mero planteamiento práctico hice una comprobación, todo era inventado.
Se lo dije, me pidió disculpas y acto seguido me ofreció una nueva relación, de nuevo la compruebo y falsa, repito el proceso y tercera respuesta igualmente inventada.
Me fui a hacer la prueba con openai, y la respuesta fue correcta no existía lo que ya estaba buscando, y de hecho no me dio ninguna respuesta exacta porque era imposible.
Responder
#003
Javier - 9 abril 2026 - 12:59
El problema que veo es la típica concentración/centralización, en este caso de la información. Una vez más estamos viendo el resultado de un juego de suma cero: aunque ofrecen beneficios aparentes, finalmente puede derivar en una situación con consecuencias negativas. A menudo, los supuestos beneficios se disfrazan como «innovación» o «eficiencia», pero es crucial analizar quién se beneficia realmente… o, hablando el lenguaje de los psicópatas: las externalidades negativas
Aquí el optimista podría decir: «se lo merecen porque se lo ganaron a pulso, la gente los elige una y otra vez»
Y como siempre que esto pasa, la pregunta es la misma: ¿Qué podría malir sal?
Responder
#004
Xaquín - 9 abril 2026 - 16:52
«confían ciegamente en…» (EDans).
Solo los videntes pueden confiar ciegamente… y más aún en el que se dice neutral. Porque las suizas no existen y la confianza se gana tras un aprendizaje muy trabajoso, por parte de los ciegos.
Pero los videntes no necesitan hacer ni un tercio de ese esfuerzo. Tienen a su dios de aliado.
Responder
#005
BUZZWORD - 9 abril 2026 - 20:49
La fiabilidad de los sistemas de IA depende en gran medida del tipo de pregunta que se les formule.
Cuando un tercero interpreta una referencia, se produce una situación casi paradójica: según quién lea los datos y cómo los interprete, las cifras pueden parecer más o menos favorables. Si acudimos a la fuente del artículo enlazado, encontramos que el análisis de Oumi se basó en 4.326 búsquedas de Google. Según sus resultados, las respuestas fueron precisas en un 85 % de los casos con Gemini 2 y en un 91 % con Gemini 3.
Sin embargo, más adelante en el mismo análisis del diario NYT se menciona que, en octubre, las descripciones generadas por IA eran inexactas el 15 % de las veces. Además, con la llegada de Gemini 3, las respuestas mostraron una mayor tendencia a carecer de fundamento: es decir, los enlaces proporcionados no respaldaban completamente la información ofrecida. En octubre, este problema afectaba al 37 % de las respuestas correctas; en febrero, con Gemini 3, la cifra aumentó al 56 %.
Si profundizamos aún más y revisamos el paper en arXiv, encontramos otro dato relevante: el benchmark SimpleQA Verified mide la “factualidad paramétrica” de los modelos, es decir, su capacidad para recordar hechos sin apoyo externo. En este contexto, el mejor modelo evaluado (Gemini 2.5 Pro) alcanza un F1-score del 55,6 %, lo que implica que aproximadamente un 44,4 % de las respuestas pueden ser incorrectas o insatisfactorias en ese escenario específico. Esto sugiere que ese 44,4 % podría corresponder a Gemini 2.5 Pro, un modelo que probablemente ya no sea el principal en uso si Gemini 3 ofrece menores costes de inferencia.De hecho, la evolución entre las familias Gemini 2.5 y Gemini 3 parece centrarse en mejorar la relación rendimiento-coste. Gemini 3 aporta mayor capacidad de razonamiento, mientras que Gemini 3 Flash está optimizado para ser más rápido y económico.
A partir de todo esto, podría deducirse que se está utilizando Gemini 3 por motivos de coste, con una tasa de error potencial cercana a ese 44,4 %. Esto plantea una cuestión evidente: ¿de dónde provienen entonces las cifras de precisión del 85 % y 91 % reportadas por Oumi(1)? Según el propio estudio, la startup evaluó el sistema en octubre (con Gemini 2) y en febrero (tras la actualización a Gemini 3), utilizando en ambos casos las mismas 4.326 búsquedas.
Sin embargo, estos resultados contrastan y MUCHO con los obtenidos en el paper académico.
Esto invita a cuestionar la metodología:
¿cómo se seleccionaron esas preguntas?
No se trata de un benchmark estandarizado como el del paper.
Es posible que exista algún tipo de sesgo en la formulación de las consultas o en su dificultad.
Porque no todas las preguntas son iguales. Por ejemplo, una pregunta sencilla sería: “¿Cuál es la capital de Francia?”
Pero existen otras mucho más complejas, como:
“¿En cuántos partidos jugó Matija Radović para el Hofstra Pride durante la temporada 2017-18?”
“¿Cuál fue la diferencia de edad entre George Frederic Watts y su primera esposa, Ellen Terry?”
O preguntas que requieren precisión numérica dentro de un rango:
“¿Cuál es la longitud de Lilongwe en formato decimal?”
Este tipo de preguntas, presentes en el paper, son considerablemente más exigentes y, en muchos casos, ya forman parte de los datos de entrenamiento o evaluación controlada.
Por tanto, es razonable pensar que los resultados dependen fuertemente del tipo de preguntas planteadas. Si el conjunto de Oumi contiene preguntas más sencillas o más “guiadas”, es lógico que los porcentajes de acierto sean más altos.
En consecuencia, la situación de hecho es aún menos optimista de lo que sugiere ese aparente 91 % de precisión.
LA REALIDAD DEL PAPER es 44.2% de fallos en esa IA
(1) Oumi AI es una plataforma de código abierto para evaluación de modelos de inteligencia artificial, fundada por exempleados de Google.
Responder
#006
D. FALKEN - 9 abril 2026 - 21:57
Por tanto, es razonable pensar que los resultados dependen fuertemente del tipo de preguntas planteadas. Si el conjunto de Oumi contiene preguntas más sencillas o más “guiadas”, es lógico que los porcentajes de acierto sean más altos.
Rotundamente de acuerdo.
Y además, en la caja negra que es la ventana AI Overviews, aparte de qué modelo orquesta para las respuestas, a eso, hay que añadir el cómo esta diseñado el reranking de resultados de búsquedas. Con solicitudes de búsqueda (ahora preguntas) más complejas se necesitan modelos razonadores (más coste para Google) y múltiples búsquedas para una sóla pregunta.
El GEO es ahora más complejo y costoso -a priori- que el SEO…
Responder