Cuando el anonimato era «suficiente»: LLMs y reidentificación

Durante años hemos vivido cómodamente instalados en una ficción colectiva: la de que usar un seudónimo equivalía, más o menos, a estar a salvo. No porque lo que publicásemos fuese invisible, sino porque la conexión entre piezas dispersas de información requería tiempo, paciencia, habilidad y, sobre todo, un incentivo claro.

A esa capa de protección la literatura la ha llamado a veces «oscuridad práctica»: no es que no se pueda saber quién eres, es que hacerlo es caro. El problema es que, cuando aparece una tecnología que convierte lo caro en barato y lo lento en instantáneo, esa “protección” se evapora. Y eso es, precisamente, lo que muestran Simon Lermen y Daniel Paleka en su trabajo reciente sobre desanonimización a gran escala con modelos de lenguaje.

La idea central del estudio es tan simple como inquietante: con acceso a internet, un agente basado en LLM puede tomar un perfil seudónimo, leer lo que has escrito, extraer señales identitarias (lugares, aficiones, jerga profesional, eventos, trayectorias vitales), buscar candidatos plausibles y razonar sobre los mejores encajes hasta llegar a una identidad probable. La clave no es que «adivine» por magia, sino que automatiza lo que antes hacía un investigador humano, pero a escala industrial y con un coste ridículamente bajo. El propio resumen del trabajo deja claro el cambio de paradigma: no hacen falta datos estructurados ni ingeniería artesanal de atributos, basta texto normal escrito por personas normales en foros y redes.

Para medir algo así sin caer en la trampa ética de doxxear a medio Internet, el trabajo construye varios escenarios con «verdad controlada». Por un lado, enlazan usuarios de Hacker News con perfiles de LinkedIn usando referencias cruzadas que aparecen en los perfiles (y luego eliminan esas referencias para que el sistema no haga trampa). Por otro, prueban el emparejamiento entre comunidades de discusión de cine en Reddit, y además un experimento particularmente interesante: dividir el historial de un mismo usuario de Reddit en dos «identidades» separadas en el tiempo y ver si el sistema es capaz de concluir que, en realidad, es la misma persona. En esos entornos, los métodos basados en LLM superan con mucha diferencia a los enfoques «clásicos», llegando a cifras que, aunque no sean perfectas, son más que suficientes para causar daño: el propio artículo reporta resultados de hasta un 68% de recall con un 90% de precisión en algunos de los escenarios.

El punto que más debería quitarnos el sueño no es el experimento de laboratorio, sino su extrapolación. En su explicación divulgativa, Lermen insiste en que el rendimiento «degrada con elegancia» cuando el conjunto de candidatos crece a decenas de miles y que, con suficiente computación, la escala objetivo podría ser «plataforma completa». Incluso muestran análisis de escalado y extrapolaciones a tamaños enormes de población. Y, como siempre ocurre, el coste tiende a bajar mientras la calidad de los modelos tiende a subir. Es la combinación perfecta para que una técnica pase de “interesante” a «inevitable».

Si alguien piensa que esto va solo de que «te descubran el nick«, conviene aterrizar las consecuencias. La primera es obvia: el doxxing deja de ser un arte reservado a comunidades obsesivas y pasa a ser un flujo de trabajo automatizable. La segunda es más peligrosa: la ingeniería social se vuelve quirúrgica. En cuanto alguien puede vincular tu cuenta seudónima con tu identidad real, puede construir ataques que se apoyen en confianza contextual, en tus vínculos y en tus hábitos. La desanonimización no es el final del ataque: es la fase de reconocimiento que puede alimentar el phishing, la extorsión, el acoso y la manipulación. El propio estudio lo conecta explícitamente con el uso malicioso en campañas de spear-phishing, y la cobertura periodística lo aterriza en escenarios de vigilancia de disidentes y activistas.

La tercera consecuencia es quizá la más tóxica: el «efecto escalofrío». Si publicar bajo seudónimo deja de ser una opción razonable, la conversación pública se empobrece. No hablamos de trolls: hablamos de denunciantes, víctimas de violencia, minorías perseguidas, profesionales que necesitan separar identidad laboral de identidad personal, o simples ciudadanos que no quieren que cada opinión se convierta en munición para el futuro. Y aquí se cruza una tensión incómoda: muchas de las defensas típicas contra manipulación a gran escala (verificación reforzada, más trazabilidad, menos fricción para identificar) son exactamente lo contrario de lo que necesita quien depende del seudónimo para sobrevivir. Basta ver el debate creciente sobre enjambres de agentes que podrían inundar redes sociales para influir y acosar, y cómo las propuestas de mitigación suelen chocar con la necesidad legítima de anonimato en contextos políticos.

Ahora bien, conviene no caer en el determinismo tecnológico ingenuo: estos sistemas también se equivocan. Y ese detalle importa, porque el error en este contexto no es «un fallo simpático», sino una acusación potencialmente devastadora. La cobertura de The Guardian recoge precisamente la preocupación por los falsos positivos: modelos que enlazan mal y acaban señalando a quien no es. En un mundo polarizado, donde la reputación se destruye más rápido de lo que se repara, esa posibilidad debería encender todas las alarmas.

¿Qué se puede hacer? La respuesta más honesta es que no hay bala de plata, y parte del problema es estructural. El propio Lermen lo expresa con claridad: la mitigación más efectiva a corto plazo es restringir el acceso a datos, imponer rate limits, detectar scraping automatizado y limitar exportaciones masivas. Y, sobre todo, asumir que la pseudonimia es enlazable y diseñar políticas como si esa enlazabilidad fuese la norma, no la excepción. Pero incluso eso tiene grietas. Los proveedores de modelos pueden intentar poner medidas de seguridad y monitorizar usos, sí, pero el estudio describe un problema fundamental: el ataque se descompone en tareas «inocentes» (resumir, vectorizar, ordenar candidatos, razonar sobre opciones) que son indistinguibles de usos legítimos. Y, por supuesto, el elefante en la habitación: modelos open source sin monitorización, sin controles, sin límites. En el momento en que el flujo de trabajo está descrito, cualquiera con motivación puede replicarlo donde no haya nadie mirando.

Además, hay un ángulo que solemos ignorar hasta que es tarde: la desanonimización no necesita vulnerar sistemas, solo correlacionar señales. Es un ataque que se alimenta del exceso de exposición y de incentivos perversos de plataforma. Y eso nos devuelve a una discusión que llevamos aplazando demasiado: qué significa realmente «datos anónimos» en 2026. Si un texto aparentemente inofensivo puede ser un identificador tan potente como un DNI, entonces buena parte de nuestras prácticas de publicación, investigación, transparencia y open data necesitan una revisión profunda. No desde el miedo, sino desde la evidencia de que el contexto tecnológico ha cambiado.

A nivel individual, la recomendación no es «desaparece de Internet», una fantasía impracticable, sino entender que la identidad es un puzzle, y que cada pieza específica, desde la ciudad a la empresa, pasando por la conferencia, el hobby raro, la rutina reconocible o el estilo de redacción, reducen el espacio de posibilidades hasta convertirte en un único punto. Si antes ese punto era difícil de calcular, ahora hay máquinas que lo calculan por defecto. Y la pregunta incómoda que propone el propio autor es la correcta: si un equipo de investigadores listos podría deducir quién eres a partir de tus posts, un agente con LLM probablemente también, solo que más barato y más rápido.

La consecuencia más provocadora de todo esto es que el anonimato online, tal y como lo hemos entendido, quizá ha pasado a ser un privilegio técnico, no un derecho práctico. Y antes de decir «¡qué bien, porque no debería existir!», pensemos que no es así, y que es importante informarse bien sobre ello. El anonimato es y debe ser un derecho. Pero ahora, ejercerlo va a requerir disciplina constante, compartimentación casi paranoica y, aun así, suerte. Y cuando una condición básica para participar con seguridad en el espacio público se convierte en una habilidad especializada, lo que está en juego ya no es la privacidad individual: es la calidad de la democracia, la libertad de expresión y la posibilidad de disentir sin que te «cobren» la osadía con tu vida personal. Si no reaccionamos, lo que se va a degradar «con elegancia» no es sólo el rendimiento del ataque: es la conversación pública.

This article is openly available in English on Medium, «You thought you were anonymous: that’s a puzzle AI can now solve in seconds»

#001
Javier - 13 marzo 2026 - 12:14
Acabas de describir exactamente lo que hace y para lo que sirve Palantir, entre otras no tan declaradas.
Loose lips sink ships
#002
D.M.G. - 13 marzo 2026 - 16:48
Impresionante. El estudio y la reflexión. El anonimato ha pasado de ser un derecho práctico a un privilegio técnico casi inalcanzable. Estamos transitando de la conversación pública a la administración de datos biométricos textuales, donde nuestra «huella dactilar» es nuestra propia sintaxis.
Por cierto, noto un pequeño error de apertura en el último párrafo: «(!)qué bien». Lo señalo sin acritud, solo para que el bot de turno, en su repaso aséptico, me asigne la etiqueta correspondiente: «Propenso a lo exclamativo – Riesgo de disidencia – Lector de Enrique Dans con exceso de celo analítico». Total, para el algoritmo ya debemos de ser «terroristas de la precisión», así que mejor que el perfilado sea exacto. Un cordial saludo, también, a los agentes de clasificación…
#003
Xaquín - 13 marzo 2026 - 16:51
«Si no reaccionamos,» (EDans).
Aprovechando que el Pisuerga pasa por Valladolid, diría que me estás describiendo el gen social negativo, su efecto, que media humanidad (por lo bajo) lleva tatuado en la mente…
Es tal la incapacidad de reaccionar que tiene el ser humano en versión mediocre… que ni siquiera es capaz de imitar a una simple molécula de hidrógeno, que, al tener cerca (distancia crítica) a una molécula de oxígeno, solo «sabe» hacer una cosa : reaccionar.
Pero el ser humano hace mucho tiempo que tiene el cerebro tocado y le quitaron la parte que controla sus reacciones conscientes. Le han dejado el instinto necesario, para joder la marrana y a mansalva.
Y luego ya están los que piensan con los pies, como el pato más patoso de todos los patos (el megamediocre).
- Xaquín - 13 marzo 2026 - 16:54
  Por cierto, la reacción consciente puede ser tanto racional como emocional… nada que ver con el instinto «emocional», del que hablan algunos.
#005
Juan T. - 13 marzo 2026 - 19:35
¿Y alguien se extraña de los que nos viene encima?
La Biblia dice: «La Verdad os hará libres».
¡ La Verdad !…No la tecnología.
#006
Idealista - 14 marzo 2026 - 02:54
Esto es un off-topic: el tipo de imágenes que usas últimamente, Enrique, en tus post siempre apelan a una especie de distopía tecnológica, con reminiscencias de Terminator y cosas chusqueras parecidas.
Me da la sensación de que es algo a lo que prestas cinco segundos de tu atención y no eres consciente de que tiene una importancia considerable. Al cabo del tiempo, la estética de tu blog es esta: imágenes de robots o humanoides en canvas o entornos cibernéticos, sin ningún estilo, ni estética, ni patrón, ni gusto… y que, francamente, si no fuera por ti y tu marca, cualquiera diría que es un blog cutre de alguien que escribe lo primero que se le viene a la cabeza. Sé que te cuesta, y lo ignoras, pero quizá podrías empezar a marcar un poco de estilo también en esto.
Un saludo,
- BUZZWORD - 14 marzo 2026 - 11:34
  Esta es la realidad de la gente joven que empieza y se tiene que pelear con las IAs
  Mentira de loro – Por qué abandona la ilustración?
  OJO: No es el caso de este blog que al fin y al cabo todo es gratuito, y antes Enrique usaba imágenes de stock. Es simplemente que me acaba de saltar el video en YT y creo que viene al pelo, para reflexionar, lo que lo «social-empresarial» y la tecnología «low-cost» de las IAs están provocando.
  - Idealista - 15 marzo 2026 - 17:20
    Impresionante vídeo, gracias.
- Enrique Dans - 16 marzo 2026 - 11:43
  Efectivamente. Cinco segundos para escribir un prompt, que se lea lo que he escrito, y me genere una imagen. No soy ilustrador, no creo que la imagen juegue un papel importante en mi contenido, y no puedo dedicarle mucho más de lo que le dedico. Uno tiene que escoger sus batallas, y la de las ilustraciones no me toca. Antes las sacaba de repositorios de imágenes de stock y eran mucho peores y aburridas.
#010
Jose - 14 marzo 2026 - 12:27
¡Muchas gracias Enrique por enseñarnos tantas cosas!
El fin del anonimato y la evolución de la máquina: argocapitalismo, “World Models” y la defensa de la soberanía cognitiva
https://santiagoramonycajal.org/2026/03/14/el-fin-del-anonimato-y-la-evolucion-de-la-maquina-argocapitalismo-world-models-y-la-defensa-de-la-soberania-cognitiva/
La convergencia entre la grave erosión de la privacidad en internet, la incipiente evolución hacia inteligencias artificiales capaces de simular el mundo físico y las lógicas del “argocapitalismo”, plantean nuevos retos para la soberanía cognitiva del individuo. Frente a esta encrucijada, el legado ético de Santiago Ramón y Cajal, la regulación inteligente y la exigencia de los neuroderechos se erigen como nuestra principal línea de defensa.