El Blog de Enrique Dans

Reidentificación: identificando personas en bases de datos anónimas

Escrito a las 11:58 am
28

reidentificationEn el año 2006, AOL fue requerida por el gobierno estadounidense junto con otras empresas para que facilitasen un fichero anonimizado con veinte millones de búsquedas procedentes de seiscientos cincuenta y siete mil usuarios identificados mediante claves numéricas, con el propósito de valorar el impacto de la pornografía infantil. Tras cumplir con la solicitud, AOL tuvo la ocurrencia de demostrar su apertura publicando en Internet ese fichero para su uso por la comunidad científica: total, estando ya el fichero convenientemente anonimizado y libre de toda información personal, ¿qué podía pasar?

La sorpresa no se hizo esperar: en pocos días, Thelma Arnold, una mujer de 62 años residente en Lilburn, una pequeña localidad del estado de Georgia, recibía la visita en su casa de un periodista que le preguntaba si una determinada lista de búsquedas era efectivamente suya. Una pequeña investigación a partir de las búsquedas de la mujer había revelado datos suficientes como para identificarla con precisión. El asunto, que terminó con la salida de la Chief Technology Officer de AOL, demostraba con claridad que las implicaciones de la revelación de datos en la privacidad no terminan en el momento en que se eliminan del fichero datos estrictamente personales como nombre, dirección, IP o número de identificación.

La reidentificación es precisamente eso, el análisis de ficheros anonimizados con el fin de identificar a personas específicas a partir de ellos. Un artículo de Ars Technica, ‘Anonymized’ data really isn’t—and here’s why not, revela que, en realidad, un 87% de los norteamericanos pueden ser identificados en una base de datos utilizando únicamente tres datos: código postal, sexo y fecha de nacimiento, no incluidos en los datos de identificación que habitualmente se eliminan de este tipo de ficheros supuestamente anonimizados. Un trabajo de investigación de Paul Ohm recoge las conclusiones de lo que denomina “la promesa rota de la privacidad”: en la práctica, cualquier investigación medianamente seria es capaz de identificar a una persona a partir de la información fragmentaria procedente de ficheros supuestamente anonimizados o de patrones de uso desarrollados en muchas de sus actividades. Aquel usuario que buscaba obsesivamente formas de matar a su mujer debería estar preocupado: en caso de llegar finalmente a cometer el crimen, sería identificado sin demasiados problemas. La respuesta es, según el investigador, sumamente clara: “los datos pueden ser útiles o perfectamente anónimos, pero nunca ambas cosas“.

La mayor parte de los requisitos para el almacenamiento de datos se reducen a la eliminación de la denominada Personally Identifiable Information (PII), un conjunto de datos determinado, pero a todas luces, claramente insuficiente. Para empresas como Google, que almacenan datos indefinidamente tras su “anonimización”, las implicaciones son importantes, porque en realidad almacenan datos que serían perfectamente capaces de conducir a una identificación inequívoca aunque haya transcurrido más tiempo del período inicialmente pactado con sus usuarios. Datos que, pensando en el tipo de información que hoy en día manejamos en la red, abarcan un conjunto de cuestiones tan amplio, que puede llegar a dar vértigo, no necesariamente por lo secreto, sino por lo privado de los mismos: datos que no necesariamente busco ocultar, pero sobre los que sí tengo una determinada expectativa de privacidad. A medida que compartimos más datos y que éstos quedan registrados en más sitios, la necesidad de ser exquisitos en su protección y custodia crece, y la expectativa de privacidad disminuye, sin que parezca existir ninguna solución sencilla: incrementar los requisitos legales en el almacén de la información conduce a hacerla inservible. ¿Signo de los tiempos? ¿Resignación? ¿Generacional? ¿Metáfora de la aldea pequeña? Sin duda, algo sobre cuyas consecuencias no hemos pensado suficiente aún.

Publicidad

5 trackbacks

001
meneame.net
09.09.2009 a las 15:19 Permalink

Reidentificación: identificando personas en bases de datos anonimizadas (Opinión)…

AOL fue requerida por el gobierno de EEUU para que facilitasen un fichero anonimizado con 20 millones de búsquedas de 657.000 usuarios para valorar el impacto de la pornografía infantil. Luego AOL tuvo la ocurrencia de publicarlo en Internet para uso d…

[...] de los datos, algo en lo que también se ha fijado Enrique Dans en su blog, en el que habla de “reidentificación”. Ambos se refieren a un artículo de Ars Technica denominado “‘Anonymized’ data [...]

[...] Reidentificación: identificando personas en bases de datos anónimas » El Blog de Enrique Dans [...]

[...] de reidentificación de los pacientes o personal facultativo incluido en los ficheros, como comentaba ayer Enrique Dans en su blog.En cualquier caso, sigue resultando totalmente vigente la necesidad de [...]

[...] hace unos días en el blog de Enrique Dans, que se ha publicado un estudio acerca de como de fácil es “desanonimizar” (bonito [...]

23 comentarios

001
Miguel Villegas
09.09.2009 a las 12:21 Permalink

Quizás la solución a los dilemas no sea seguir defendiendo nuestra privacidad e intimidad si no confiar en que no tengamos nada que ocultar. Raya demasiado en el exhibicionismo y en la falta de pudor e intimidad, pero, si todo fuera “natural y bueno” y todo el mundo lo aceptara, nadie tendría ningún problema ¿no?

Escalofriante, para no dormir.

003
maty
09.09.2009 a las 12:36 Permalink

Quien ha tenido siempre cuidado con la privacidad en internet no tiene por qué preocuparse en exceso, salvo por el filtrado de nuestros datos desde las Administraciones Públicas.

Ahora bien, la gran mayoría de la población sigue despreciando todo lo relativo a la seguridad y privacidad informáticas, así nos va.

Evidentemente, cuando me registro en servicios web no utilizo mi nombre auténtico, ni tan siquiera en las cuentas de Google, Yahoo! Cuando veo que algunos dan hasta su nº de móvil en su perfil de Facebook…

Las compras por internet las pago vía transferencia bancaria. Y si no queda otra (extranjero), habilito temporalmente la cuenta que tengo en PayPal, tras lo cual la inhabilito pasados unos pocos días (por si hubiese problema en la operación).

Resumiendo: siempre hay que seguir una política de intentar limitar daños futuros.

En fin, “es lo que hay”.

005
jummp
09.09.2009 a las 13:23 Permalink

En el caso de España, la LOPD considera datos de carácter personal: “cualquier información concerniente a personas físicas identificadas o identificables”.

Evidentemente el problema está en el concepto de identificable que mucho me temo al final un juez tuviera que decidir en este tipo de situaciones como la que pones como ejemplo en tu post si realmente se considera susceptible de identificar a una persona.

A partir de la información de las búsquedas se puede obtener desde los datos de la misma persona en sí, como información suficiente para formar un perfil lo suficientemente en detalle como para identificar de qué persona se trata. Yo creo que sí debería considerarse como datos de carácter personal ya que la información de las búsquedas podría potencialmente identificar a una persona, pero bueno, eso es simplemente lo que yo creo, los jueces y/o los legisladores tendrán la última palabra.

006
jose luis portela
09.09.2009 a las 13:28 Permalink

Pues yo me alegro. Como no tengo nada que ocultar, no cometo ningun delito y lo que hago es legal, me da igual la info que tengan mia donde sea. Si esto sirve para reducir el nivel de seguridad a nivel mundial estare contento.

Un ejemplo tonto es cuando me cruzo con un policia por la calle aunque me este observando no me pongo nervioso, es mas me alegro que este ahí.

007
Manuel - TreceBits
09.09.2009 a las 13:34 Permalink

Jose Luis, muy bueno el ejemplo del policía, pero aunque no haya nada que ocultar, puede que haya gente que no quiera o no le guste que determinados datos de su vida puedan saberse, por ejemplo, se me ocurre, en un momento dado, que se sepa el lugar en el que trabajas, o tu cargo. Saludos. Manuel.

008
maty
09.09.2009 a las 13:39 Permalink

En un país democrático no hay que temer de las fuerzas del orden, digo.

Otra cosa son los delincuentes, que pueden aprovechar la información que encuentren sobre nosotros para darnos un disgusto.

Que yo me oculte tras el anonimato en internet no significa que tenga que avergonzarme de nada, y menos temer a la policía. Acaso, para protegerme de posibles represalias de nacionalistas excluyentes catalanes, pero esa es otra cuestión, en la que no deseo entrar.

009
Enrique Dans
09.09.2009 a las 13:39 Permalink

#6: Jose Luis, yo creo que es más complejo que eso. Yo también me alegro de ver a la Guardia Civil e intento facilitar su trabajo en todo lo que puedo, pero eso no quiere decir que esté de acuerdo con que cualquiera pueda acceder a mis datos. Para acceder a mis datos, orden judicial, por favor. Sin ella, solo bajo mi estricto conocimiento y aprobación, que probablemente otorgue de manera bastante habitual, pero no a todo el mundo ni en todos los casos. Lo que nunca diría, por muy respetuoso de la ley que pueda ser, es que me da igual la información que tengan de mí donde sea.

010
Macia Segarra
09.09.2009 a las 15:17 Permalink

#3 eso zona la paranoia… también pagas en efectivo cuando realizas compras en tiendas para que no puedan indentificar donde estas y que compras? evitas retirar dinero de los cajeros para que no quede reflejado donde has estado? tienes un móvil prepago no identificado? Nunca has dado tu móvil con tu nombre en un concurso, papeleta, registro (en el mundo real… digo, no en Internet), y muchos etc mas…

Por supuesto que yo tengo mi número de móvil en Facebook, ¿porque no lo iba a tener?

011
Edgard
09.09.2009 a las 15:20 Permalink

En el 95% de la población “virtual” se podría afirmar que el anonimato absoluto NO existe. Únicamente aquell@s que realmente son conscientes del significado de la confidencialidad, la privacidad, el anonimato, la intimidad, etc. y que al mismo tiempo son capaces de aplicar mecanismos para evitar o minimizar el registro de su actividad, comportamiento, etc. pueden estar tranquilos. Nada tiene que ver con el hecho de querer esconder o ocultar algo, Aquellos que realmente tienen algo que esconder no dudéis en que lo esconden, es más, dudo mucho que los más malos malotes hagan un uso intensivo de la red.
Como conclusión, “a las duras y a las maduras”. Todo tiene su precio, aquell@s que su vida gira alrededor de la nube es lógico que su anonimato se vea perjudicado. No obstante, hay que reconocer que nadie tiene el control absoluto de sus datos. Por mucho empeño personal que uno ponga en preservar su intimidad hay infinidad de entes externos que, voluntariamente o no, pueden vulnerarla (sólo hay que pensar en cuantos lugares mantienen datos acerca de una persona).

012
Jorge Hernández
09.09.2009 a las 15:34 Permalink

Parece el principio de incertidumbre de Heisenberg: “los datos pueden ser útiles o perfectamente anónimos, pero nunca ambas cosas“.

#6, completamente en desacuerdo, aunque no sé si era tu idea al dejar el comentario. También podríamos dejar que el Estado revisase nuestra correspondencia o hurgase en nuestra nevera. Yo en mi nevera no almaceno cadáveres, pero no por ello me hace gracia que venga a hurgar cualquiera en ella.

013
Marion
09.09.2009 a las 15:46 Permalink

Pues a mi me viene a la memoria el articulo de ayer sobre “Life Recorders”, donde a todo el mundo le parecia fantasticochachipiruli la idea de que CUALQUIERA pueda ir por ahi, -en teoria- grabando su vida, sin tener en cuenta que tambien graba la tuya.

O los miles de veces que se ha despotricado contra aquellos que estan en contra de la “nube”… lugar donde nuestros datos, personales, privados… quedan almacenados al alcance de… ¿Cualquiera?

Si, yo tambien he sido joven (de eso hace mucho) y me ponia muy nervioso cuando la policia miraba a un “melenudo” (yo) y procedia a identificarme e incautarme el hashis… Ahora sigo agradeciendo la presencia policial (y cuanta mas mejor segun donde me muevo), pero no por ello, voy con una T-Shirt con mi DNI impreso en ella…

Nos guste o no, la tecnologia tiene sus buenas y sus malas cosas. Y dentro de las malas, tenemos que aceptar (o rechazar) que nuestra privacidad pueda estar al alcance de cualquiera (con o sin orden judicial), todo es un riesgo.

Mis datos en la red? Incluso en este blog, hago comentarios cambiando cada cierto tiempo de “alias”. Datos financieros los minimos (Paypal y gracias) y en redes siempre nombres (y resto de datos) falsos. Quien me ha de localizar ya sabe como hacerlo (porque yo se lo permito).

Como dice Maty #3: “Resumiendo: siempre hay que seguir una política de intentar limitar daños futuros.”

014
Gorki
09.09.2009 a las 16:14 Permalink

los datos pueden ser útiles o perfectamente anónimos, pero nunca ambas cosas

Solución, generar con un programa automático superabundacia de datos inútiles de forma que los datos útiles, queden diluidos en un torrente de datos falsos.

Hay programas que lo hacen, generan consultas aleatorias a Google y abren un web de respuesta automáticamente, Además dejo abierta la wifi ADSL para que la utilicen los vecinos.,

Propugno además hacer programas P2P que intercambien las cookies que cada uno tenga en su PC con las de los demàs,

Por supuesto utilizo varios alias, uno para cada tipo de acción en Internet, familiar, blogger, profesional, amigos, etc.

015
Gorki
09.09.2009 a las 16:35 Permalink

·#10 Macia Segarra
Quizá sea paranoico pero:

pagas en efectivo cuando realizas compras en tiendas para que no puedan indentificar – en el 90% de los casos
- Casi nunca uso tarjeta de crédito, suelo pagar en efectivo casi todas mis compras

evitas retirar dinero de los cajeros para que no quede reflejado donde has estado
- Si lo evito, pero no puedo evitar sacar dinero del banco de vez en cuando. Lo hago en ventanilla, pues como saco pocas veces, es más que el limite de la tarjeta.

tienes un móvil prepago no identificado?
Si, lo tengo, el problema es que ahora esta prohibido y Movistar estos días me ha enviado un aviso que me identifico o me cortan la linea.

Nunca has dado tu móvil con tu nombre en un concurso, papeleta, registro y muchos etc mas…
Solo doy este tipo de datos cuando es imprescindible, tengo tarjetas de visita con datos falsos para cuando me la pide alguien a quien no quiero darle los verdaderos. No se porqué, nadie duda de la vericidad los datos de las tarjetas de visita, de los de los membretes de las cartas y de los sellos de caucho.
.

016
Cyberprimo ®
09.09.2009 a las 16:39 Permalink

Despues de todo nos somos tan anonimos como pensabamos XD

Ahora si me dio vertigo como dijiste y es que dejemos de lado la exposicion de nuestras vidas en las redes sociales las busquedas son algo mas privado, igual y dan con el historial bancario o que se yo.

017
Miguel Ángel
09.09.2009 a las 16:50 Permalink

Yo con que se hiciera cumplir el articulo 18 de la constitución ya estaría tranquilo.
Renunciar a la privacidad no me parece una opción, igual que no me parece una opción renunciar a otros derechos constitucionales.

ARTICULO 18
1. Se garantiza el derecho al honor, a la intimidad personal y familiar y a la propia imagen.
2. El domicilio es inviolable. Ninguna entrada o registro podrá hacerse en él sin consentimiento del titular o resolución judicial, salvo en caso de flagrante delito.
3. Se garantiza el secreto de las comunicaciones y, en especial, de las postales, telegráficas y telefónicas, salvo resolución judicial.
4. La ley limitará el uso de la informática para garantizar el honor y la intimidad personal y familiar de los ciudadanos y el pleno ejercicio de sus derechos

018
jose luis portela
09.09.2009 a las 17:19 Permalink

# 7, 9 y 12. Bueno bueno, quizas haya exagerado un poco. Lo que quiero decir no es que me de igual que todos mis datos esten en todos los sitios accesibles a todo el mundo a todas horas simplemente porque no cometo delitos. (el ejemplo de mi salario es muy bueno, no querría que la gente lo supiese). Lo que pretendo decir y de eso por mi trabajo se de que hablo, que todas las camaras que estan grabando en muchisimos sitios (mas de los que pensais) no atentan contra nuestra intimidad, porque no hay recursos suficientes ni gente con ganas de ello, de espiar a una persona porque si. Esos sistemas estan cumpliendo un objetivo concreto y hay gente muy preparada detras con sistemas muy potentes y que utilizan sus recursos humanos en labores concretas y que por tanto a una persona normal que entre en un recinto que no tenga intenciones de hacer cosas delictivas, tiene que estar muy tranquilo, porque la gente no se va a dedicar a espiarle. Precisamente por el problema de falta de recursos para visualizar 50 camaras a la vez por ejemplo en un centro comercial, se utilizan sistemas de analisis de imagenes que son capaces de lanzar alarmas visuales que les hacen concentrar su atencion cuando un evento ha pasado. Si esto es así, imaginaros si no estais haciendo nada malo y simplemente estais paseando por ejemplo agarrados de vuestra amante. Teneis mas probabilidad de que alguien os reconozca andando que el vigilante le de por recuperar tu imagen concreto y subirla a youtube. No se si me explico…

019
Miguel Ángel
09.09.2009 a las 19:09 Permalink

#18 El tema es que el desarrollo tecnológico está haciendo que progresivamente tanto los estados como empresas multinacionales si que tienen a su alcance medios para analizar todos los datos a su alcance, incluso para analizarlos en tiempo real. Cada vez se dispone de más y mejores medios de análisis y cada vez se dispone de mas fuentes de información.
Por eso se necesita legislar limitaciones a esas fuentes de información y a esos medios de análisis de la información.

No se espía a la gente porque sí se espía con un objetivo. Las empresas privadas lo hacen para ganar más, para tener una ventaja sobre su competencia, cuanto mejor conozcan a la gente mejor pueden vender sus productos, un ejemplo claro es google y su publicidad personalizada.
Los estados nos espían con el objetivo de garantizar nuestra propia seguridad y prevenir el crimen, o eso dicen al menos porque nadie ha demostrado nunca que espiar sea efectivo para la seguridad, mas bien solo produce una falsa seguridad y parece que su finalidad última mas que la seguridad es el control de la población, lo que siempre ha pretendido cualquier estado, controlar a sus propios ciudadanos.

020
J. Pedro Aguayo
09.09.2009 a las 22:37 Permalink

Esto es realmente imparable. Es como vivir en un pueblito donde todos te conocen. ¿Cómo vas a hacer para esconder tus actividades? También se puede equiparar a lo que el SIDA fue al sexo. Tuvimos que mirar muy bien con quién nos relacionabamos y saltaron a la calle lo “póntelo, pónselo”. En genral, se trata de tener una actividad saludable no visitando sitios que incumplen las normativas de privacidad y castigar a los que nos engañan en las mismas.

021
manuti
10.09.2009 a las 08:43 Permalink

j*der que miedo: solo con fecha de nacimiento, código postal y sexo para ficharnos

022
maty
10.09.2009 a las 09:42 Permalink

Security By Default ¿Qué personaje de Lost eres?

Bajo esta inocente pregunta se esconde un quiz de Facebook que permite a los desarrolladores de estas aplicaciones acceder a la información de nuestro perfil, esté o no en modo privado.

Tus fotos, grupos en los que estés, tendencias políticas, religión u orientación sexual, estarán a disposición de estos desarrolladores. Y no sólo las tuyas sino también la información de tus amigos

Como suele decirse, la estupidez humana es una fuerza muy poderosa que no conviene despreciar

023
Raquel Morente
10.09.2009 a las 10:41 Permalink

O sea que de anonimato nada de nada, el único que realmente me preocupa es el de los menores, los mayores tenemos que se consecuentes con lo que hacemos y si buscas cosas en la red y alguien se entera pues nada.

Dejar un comentario

Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades (astroturfing) o suplantando a otros comentaristas. Los comentarios que incumplan esas normas básicas serán eliminados.

XHTML: Puedes utilizar estas etiquetas: A ABBR ACRONYM B BLOCKQUOTE CITE CODE DEL EM I Q STRIKE STRONG IMG

Un Comentario en Menéame

001
jm22381
09.09.2009 a las 15:19 Permalink

Un 87% de los norteamericanos pueden ser identificados en una base de datos utilizando únicamente tres datos: código postal, sexo y fecha de nacimiento.

Aquel usuario que buscaba obsesivamente formas de matar a su mujer debería estar preocupado. Ese caso si que fue un OWNED» autor: jm22381

Logotipo de Blogestudio Logotipo de Acens