Cuando el anonimato era «suficiente»: LLMs y reidentificación

Durante años hemos vivido cómodamente instalados en una ficción colectiva: la de que usar un seudónimo equivalía, más o menos, a estar a salvo. No porque lo que publicásemos fuese invisible, sino porque la conexión entre piezas dispersas de información requería tiempo, paciencia, habilidad y, sobre todo, un incentivo claro.

A esa capa de protección la literatura la ha llamado a veces «oscuridad práctica»: no es que no se pueda saber quién eres, es que hacerlo es caro. El problema es que, cuando aparece una tecnología que convierte lo caro en barato y lo lento en instantáneo, esa “protección” se evapora. Y eso es, precisamente, lo que muestran Simon Lermen y Daniel Paleka en su trabajo reciente sobre desanonimización a gran escala con modelos de lenguaje.

La idea central del estudio es tan simple como inquietante: con acceso a internet, un agente basado en LLM puede tomar un perfil seudónimo, leer lo que has escrito, extraer señales identitarias (lugares, aficiones, jerga profesional, eventos, trayectorias vitales), buscar candidatos plausibles y razonar sobre los mejores encajes hasta llegar a una identidad probable. La clave no es que «adivine» por magia, sino que automatiza lo que antes hacía un investigador humano, pero a escala industrial y con un coste ridículamente bajo. El propio resumen del trabajo deja claro el cambio de paradigma: no hacen falta datos estructurados ni ingeniería artesanal de atributos, basta texto normal escrito por personas normales en foros y redes.

Para medir algo así sin caer en la trampa ética de doxxear a medio Internet, el trabajo construye varios escenarios con «verdad controlada». Por un lado, enlazan usuarios de Hacker News con perfiles de LinkedIn usando referencias cruzadas que aparecen en los perfiles (y luego eliminan esas referencias para que el sistema no haga trampa). Por otro, prueban el emparejamiento entre comunidades de discusión de cine en Reddit, y además un experimento particularmente interesante: dividir el historial de un mismo usuario de Reddit en dos «identidades» separadas en el tiempo y ver si el sistema es capaz de concluir que, en realidad, es la misma persona. En esos entornos, los métodos basados en LLM superan con mucha diferencia a los enfoques «clásicos», llegando a cifras que, aunque no sean perfectas, son más que suficientes para causar daño: el propio artículo reporta resultados de hasta un 68% de recall con un 90% de precisión en algunos de los escenarios.

El punto que más debería quitarnos el sueño no es el experimento de laboratorio, sino su extrapolación. En su explicación divulgativa, Lermen insiste en que el rendimiento «degrada con elegancia» cuando el conjunto de candidatos crece a decenas de miles y que, con suficiente computación, la escala objetivo podría ser «plataforma completa». Incluso muestran análisis de escalado y extrapolaciones a tamaños enormes de población. Y, como siempre ocurre, el coste tiende a bajar mientras la calidad de los modelos tiende a subir. Es la combinación perfecta para que una técnica pase de “interesante” a «inevitable».

Si alguien piensa que esto va solo de que «te descubran el nick«, conviene aterrizar las consecuencias. La primera es obvia: el doxxing deja de ser un arte reservado a comunidades obsesivas y pasa a ser un flujo de trabajo automatizable. La segunda es más peligrosa: la ingeniería social se vuelve quirúrgica. En cuanto alguien puede vincular tu cuenta seudónima con tu identidad real, puede construir ataques que se apoyen en confianza contextual, en tus vínculos y en tus hábitos. La desanonimización no es el final del ataque: es la fase de reconocimiento que puede alimentar el phishing, la extorsión, el acoso y la manipulación. El propio estudio lo conecta explícitamente con el uso malicioso en campañas de spear-phishing, y la cobertura periodística lo aterriza en escenarios de vigilancia de disidentes y activistas.

La tercera consecuencia es quizá la más tóxica: el «efecto escalofrío». Si publicar bajo seudónimo deja de ser una opción razonable, la conversación pública se empobrece. No hablamos de trolls: hablamos de denunciantes, víctimas de violencia, minorías perseguidas, profesionales que necesitan separar identidad laboral de identidad personal, o simples ciudadanos que no quieren que cada opinión se convierta en munición para el futuro. Y aquí se cruza una tensión incómoda: muchas de las defensas típicas contra manipulación a gran escala (verificación reforzada, más trazabilidad, menos fricción para identificar) son exactamente lo contrario de lo que necesita quien depende del seudónimo para sobrevivir. Basta ver el debate creciente sobre enjambres de agentes que podrían inundar redes sociales para influir y acosar, y cómo las propuestas de mitigación suelen chocar con la necesidad legítima de anonimato en contextos políticos.

Ahora bien, conviene no caer en el determinismo tecnológico ingenuo: estos sistemas también se equivocan. Y ese detalle importa, porque el error en este contexto no es «un fallo simpático», sino una acusación potencialmente devastadora. La cobertura de The Guardian recoge precisamente la preocupación por los falsos positivos: modelos que enlazan mal y acaban señalando a quien no es. En un mundo polarizado, donde la reputación se destruye más rápido de lo que se repara, esa posibilidad debería encender todas las alarmas.

¿Qué se puede hacer? La respuesta más honesta es que no hay bala de plata, y parte del problema es estructural. El propio Lermen lo expresa con claridad: la mitigación más efectiva a corto plazo es restringir el acceso a datos, imponer rate limits, detectar scraping automatizado y limitar exportaciones masivas. Y, sobre todo, asumir que la pseudonimia es enlazable y diseñar políticas como si esa enlazabilidad fuese la norma, no la excepción. Pero incluso eso tiene grietas. Los proveedores de modelos pueden intentar poner medidas de seguridad y monitorizar usos, sí, pero el estudio describe un problema fundamental: el ataque se descompone en tareas «inocentes» (resumir, vectorizar, ordenar candidatos, razonar sobre opciones) que son indistinguibles de usos legítimos. Y, por supuesto, el elefante en la habitación: modelos open source sin monitorización, sin controles, sin límites. En el momento en que el flujo de trabajo está descrito, cualquiera con motivación puede replicarlo donde no haya nadie mirando.

Además, hay un ángulo que solemos ignorar hasta que es tarde: la desanonimización no necesita vulnerar sistemas, solo correlacionar señales. Es un ataque que se alimenta del exceso de exposición y de incentivos perversos de plataforma. Y eso nos devuelve a una discusión que llevamos aplazando demasiado: qué significa realmente «datos anónimos» en 2026. Si un texto aparentemente inofensivo puede ser un identificador tan potente como un DNI, entonces buena parte de nuestras prácticas de publicación, investigación, transparencia y open data necesitan una revisión profunda. No desde el miedo, sino desde la evidencia de que el contexto tecnológico ha cambiado.

A nivel individual, la recomendación no es «desaparece de Internet», una fantasía impracticable, sino entender que la identidad es un puzzle, y que cada pieza específica, desde la ciudad a la empresa, pasando por la conferencia, el hobby raro, la rutina reconocible o el estilo de redacción, reducen el espacio de posibilidades hasta convertirte en un único punto. Si antes ese punto era difícil de calcular, ahora hay máquinas que lo calculan por defecto. Y la pregunta incómoda que propone el propio autor es la correcta: si un equipo de investigadores listos podría deducir quién eres a partir de tus posts, un agente con LLM probablemente también, solo que más barato y más rápido.

La consecuencia más provocadora de todo esto es que el anonimato online, tal y como lo hemos entendido, quizá ha pasado a ser un privilegio técnico, no un derecho práctico. Y antes de decir !qué bien, porque no debería existir», pensemos que no es así, y que es importante informarse bien sobre ello. El anonimato es y debe ser un derecho. Pero ahora, ejercerlo va a requerir disciplina constante, compartimentación casi paranoica y, aun así, suerte. Y cuando una condición básica para participar con seguridad en el espacio público se convierte en una habilidad especializada, lo que está en juego ya no es la privacidad individual: es la calidad de la democracia, la libertad de expresión y la posibilidad de disentir sin que te «cobren» la osadía con tu vida personal. Si no reaccionamos, lo que se va a degradar «con elegancia» no es sólo el rendimiento del ataque: es la conversación pública.

Enrique Dans

Un comentario

Dejar un Comentario a Javier