Analizando los Panama papers como proyecto tecnológico

Panama papers scale (Source: Süddeutsche Zeitung)La mayor parte de los análisis que hemos visto estos días sobre los Panama papers, la filtración de información confidencial más importante de la historia tanto desde el punto de vista de su relevancia como de su magnitud (2.6 Terabytes, 11.5 millones de documentos) hacen referencia a la naturaleza de la información revelada, a los implicados en las presuntas actividades de evasión de impuestos mediante el uso de paraísos fiscales o a las consecuencias de las revelaciones.

A mí, sin embargo, lo que de verdad me llamó la atención fue la dimensión y la complejidad del proyecto tecnológico que supone el análisis y la explotación de una cantidad de información tan masiva, un reto tanto desde el punto de vista de arquitectura de sistemas, como de organización o herramientas. A este tema, y a lo que supone de evolución del periodismo para adaptarse a lo que se le demanda en el siglo XXI, dediqué tanto mi participación en la barra tecnológica de La Noche en 24 horas, en RTVE (en su página, a partir del minuto 2:07:26) como mi columna en El Español de hoy, titulada “Los Panama Papers y el periodismo del siglo XXI“.

La recepción de los archivos por parte del periódico alemán más importante, la Süddeutsche Zeitung, y la comprobación de su impresionante magnitud y posibilidades desencadenó el contacto con el Consorcio Internacional de Periodistas de Investigación (ICIJ), una organización sin ánimo de lucro mantenida mediante donaciones de empresas y particulares, con una infraestructura de unas catorce personas de las que seis forman parte del equipo de datos e investigación, dirigido por la española Mar Cabra. La ICIJ ha logrado convertirse en referencia gracias a su trabajo en varios proyectos previos en el ámbito de la evasión de impuestos y los paraísos fiscales, tales como los Offshore Leaks, los Luxembourg Leaks o los Swiss Leaks, de magnitudes muy inferiores a esta. Trabaja habitualmente o bien mediante software de código abierto, o mediante su adaptación o desarrollo, o en ocasiones como este caso, mediante el uso de herramientas con licencia que les permiten utilizar de manera gratuita dado el interés.

En proyectos de este tipo, lo prioritario es tratar de cualificar rápidamente los documentos recibidos, prepararlos para su manejo, e identificar a los socios adecuados en cada país, que no siempre son necesariamente los medios más grandes o importantes, sino los que más entusiasmo o posibilidades de colaboración plantean. No hay un pago en función del acceso a la información – como tampoco lo hay por parte de la Süddeutsche Zeitung a la fuente ni al ICIJ – sino simplemente un compromiso de los medios a dedicar recursos a la investigación, que pueden ir desde el tiempo de los periodistas implicados, hasta viajes, formación, etc.

El papel de los medios colaboradores es, como veremos, fundamental: resultaría imposible llevar a cabo una investigación sin contar con un conocimiento directo del contexto de cada país o sin acceso a otras fuentes de investigación ajenas a la base de datos, que pueden ir desde archivos previos existentes en los medios hasta consultas a fuentes públicas o a repositorios públicos de transparencia creados por cada gobierno. Cualquiera que piense que el papel de los medios que reciben la exclusiva es simplemente el de consultar la base de datos y publicar no está teniendo en cuenta lo que supone investigar en semejante océano inabarcable de información.

A la recepción de documentos sigue su preparación: en un caso como este, tenemos desde documentos de texto, procesables directamente como tales tras una mera comprobación de relevancia – tengamos en cuenta que hablamos de un leak, un data dump, que puede contener grandes cantidades de documentos sencillamente irrelevantes o peligrosos en función de las posibilidades que ofrecen de desprotección de la fuente – hasta otros archivos como .pst de correo electrónico, que hay que descomprimir y de nuevo cualificar, o la gran pesadilla, las imágenes y los .pdf, que deben ser pasados por un proceso de reconocimiento de caracteres para poder convertirlos en información procesable. Para llevar a cabo este proceso a una velocidad razonable se dedicaron unos treinta servidores en paralelo, además de procesos de comprobación posteriores. Tras ese paso de consolidación de la base de datos comienza el trabajo de los periodistas: si en proyectos anteriores habían dado acceso a los datos mediante el envío de un disco duro, como en el caso del último proyecto de Wikileaks, o mediante un software de tipo foro que únicamente permitía conversaciones estructuradas en forma de hilo, en este caso se optó por la modificación de una red social (originalmente centrada en los contactos y que preguntaba en la pantalla de login si eras hombre o mujer :-) que posibilitaba interacciones más sofisticadas y potentes.

Para el proceso de autenticación y login se optó por Google Authenticator con verificación en dos pasos. Una vez dentro, la navegación en la base de datos se desarrolló mediante Nuix, un software de gestión documental habitualmente utilizado por despachos de abogados para el procesamiento de sumarios complejos o muy extensos, una herramienta con licencia y cara que, sin embargo, cedió un cierto número de licencias para el proyecto dado el interés que podía tener la propia mejora del programa ante un reto como este (hay una referencia al tema en el blog de la propia Nuix). Para crear relaciones y conexiones entre documentos que permitiesen estudiar flujos de datos, y para su visualización posterior se utilizó Linkurious, otra herramienta bajo licencia que colaboró voluntariamente y de manera gratuita, y que también ha escrito una interesante entrada en su blog sobre el tema.

Toda una arquitectura de servidores en la nube, con cifrado, seguridad con doble factor y herramientas analíticas sofisticadas para poder analizar una cantidad de información masiva y convertirla, por cada uno de los medios asociados, en noticias de interés referenciadas con las circunstancias de cada uno de los implicados. Periodistas convertidos en expertos gestores de información, con cursos y tutoriales en vídeo creados o impartidos por ICIJ, y trabajando con herramientas muy alejadas de las que habitualmente componen la equipación de un periodista. Decididamente, periodismo del siglo XXI. En este siglo vamos a ver dos tipos de prensa: la que intenta investigar y generar noticias mediante análisis de datos y tratando de publicar aquello que alguien no quiere que se publique – porque, como bien dice la frase habitualmente atribuída a George Orwell, lo demás son relaciones públicas – y los que se dediquen al entretenimiento, al sensacionalismo, a los titulares intrigantes y al spam. Un periodista tendrá que formarse en herramientas que, a día de hoy, quedan bastante lejos de los temarios de la gran mayoría de las Facultades de Periodismo. Y sin duda, deberá crearse todo un marco que, en aras de la transparencia, proteja todo lo relacionado con el periodismo de investigación y lo separe de lo que pueda constituirse en otro tipo de cuestiones. 

El caso Panama papers es todo un signo de los tiempos: cambian los negocios, porque lo que no sea razonablemente transparente será cada vez más obligado a serlo, cambia la investigación periodística, y terminará cambiando hasta los marcos legislativos que la regulan. Pero sobre todo, es un esfuerzo brutal y un proyecto de sistemas y tecnologías de información que debería estudiarse en las universidades.

 

This article is also available in English in my Medium page, “The Panama papers: the technology that drives investigative journalism

 

11 comentarios

  • #001
    Luis Hernández - 8 abril 2016 - 13:55

    También es un asunto muy interesante desde el punto de vista de la seguridad informática.
    Aunque no ha trascendido públicamente el modo en que fueron extraidos los documentos, se especula que el hack pudo haber tenido su origen en un conocido plugin, en este caso desactualizado, de WordPress:

    http://sinlios.com/blog/2016/04/08/plugin-desactualizado-posible-origen-papeles-panama/

    https://www.wordfence.com/blog/2016/04/mossack-fonseca-breach-vulnerable-slider-revolution/

    http://www.bbc.com/news/world-latin-america-35975503

  • #002
    Krigan - 8 abril 2016 - 15:07

    Todo esto no habrá servido de nada si los defraudadores no son castigados, como ya ha ocurrido en anteriores filtraciones, que o bien las autoridades fiscales acababan cogiendo tortícolis de tanto mirar a otro lado, o bien los inspectores acababan recibiendo órdenes de admitir una regularización a posteriori.

    Entretanto, Assange sigue encerrado en una embajada y Snowden sigue exiliado en Moscú. A los únicos a los que se persigue es a los que filtran la información.

  • #003
    xaquin - 8 abril 2016 - 15:22

    Sin quitarle importancia al lado oscuro del asunto (responsabilidades de todo tipo), como bien apunta Krigan, quiero resaltar la visión positiva que se hace de la tecnología y de su necesario control… y que tanta importancia debe tener para el patrón como para el marinero (periodista, profesor…).

  • #004
    juan crespo - 8 abril 2016 - 15:49

    Sin desmerecer los reconocidos análisis y artículos del autor en TICS, demasiado superficial el papel de ICIJ y la ética de los patrocinadores y la repercusión que tendrá en el futuro sobre el corporativismo periodístico.
    ¿No hay evasores fiscales de USA y Alemania?

  • #005
    menestro - 8 abril 2016 - 16:31

    Enrique, Nuix fue utilizado por el “Süddeutsche Zeitung” para tratar inicialmente los PDF y formatos de ficheros que se encontraban en los archivos nativos del servidor de correo.

    (Lo que ya dice algo de cómo se produjo la filtración. No SPF. No DKIM. No TLS. No fue un Backup).

    El Software que utiliza el consorcio de periodistas (ICIJ ) lo detallo Mar Cabra en un documento, e incluye una lista de Software Libre que ha sido adaptado por el propio consorcio para sus labores de Investigación. Nuix fue el encargado del examen forense del volcado Raw del servidor de correo – existen soluciones Open Source, pero una compañía independiente suponía un nivel de verificabilidad, integridad y no repudio adicionales -.

    Todo el trabajo se realizó bajo el auspicio del Global I-Hub del ICIJ que coordina y soporta el trabajo en colaboración de todos los periodistas de investigación, y está financiado por The Knight Foundation.

    El sistema de CMS colaborativo (Content Management System) es una versión adaptada de “Oxwall”, donde se coordinó y se produjo el trabajo en colaboración de todos los periodistas.

    Tras el tratamiento de los documentos, se realizó su indexado y clasificación mediante el gestor documental "Apache Solr" y “Tika” que organizo y permitió la búsqueda y recuperación de la información contenida en los documentos de manera centralizada.

    La publicación y curación interna de los documentos se realizó mediante "Blacklight" desde donde se estructuro y publico el repositorio de documentos para compartirlo con los investigadores, según se iban clasificando.

    “Neo4j” fue la base datos donde se almacenaron y clasificaron las relaciones y coincidencias y"Linkurious", la herramienta para trazar y visualizar los vínculos de la documentación obtenida por temas y sujetos de investigación.


    Como ves, el despliegue técnico fue bastante consistente y supone un cambio en la forma de concebir el trabajo de los periodistas y, en definitiva, una nueva forma de hacer periodismo alejada de las estructuras clásicas y la redacción centralizada del periodismo tradicional.

    Secrecy for Sale: Inside the Global Offshore Money Maze

    Security tools for investigative journalists – Mar Cabra

    Global I-Hub ICIJ – Knight Prototype Fund

    About the Panama Papers

    Panama Papers: Inside The Technology That Made It Possible

    Panama Papers: Mapped

  • #006
    menestro - 8 abril 2016 - 16:49

    Se entiende, que Blackligth es donde se publicó de forma interna la información que utilizaron los periodistas tras su criba (Cualquier día de estos me pongo las lentillas para escribir)

  • #007
    Muadib - 8 abril 2016 - 16:59

    Enrique porfa una pregunta De que tamaño fue la filtracion de Wikileaks? Y los Snowden papers?Gracias!!

    • Enrique Dans - 8 abril 2016 - 17:34

      Wikileaks, en el mayor, el escándalo de los cables, fueron 1.7GB. Eso fue lo que El País bajó a una habitación cerrada en el sótano, puso guardias en la puerta y confinó a todos los periodistas a que no sacasen ni enviasen nada durante el tiempo que duró el análisis (hoy, como ves, todo eso se hace en la nube ;-) El caso de Ed Snowden no lo he visto cuantificado, porque se trata de algo diferente: él mismo fue, durante mucho tiempo,extrayendo información directamente de la fuente y como data dump interno muchísimo más cualificado y en distintos soportes, no creo ni que él mismo sepa en realidad cuánta información llegó a extraer.

  • #009
    Pedro Amador - 9 abril 2016 - 22:26

    La pregunta que me queda es… ¿Cuánto han tardado en copiar esos teras? Porque eso indica que había alguien muy metido…

    • Krigan - 10 abril 2016 - 01:31

      Son 2,6 teras, y por menos de 200 dólares hay discos duros externos de 3 teras con USB 3.0 que superan los 100 MB/s de velocidad de escritura. Esas velocidades también las puedes lograr con una conexión gigabit, que existen desde hace años en algunos países.

      26.000 segundos puede parecer mucho tiempo, pero son poco más de 7 horas y cuarto. Se puede hacer tanto si alguien se introduce en el local durante la noche con un disco duro, como mediante un ataque nocturno remoto. Y todavía te sobran horas.

  • #011
    Mónica Caballo - 12 abril 2016 - 12:28

    Buenísimo enfoque, maestro #edans, lo único, ignoro por qué no mencionaste a los DOCUMENTALISTAS profesionales, los Gestores de Información y Documentación (http://bit.ly/20xIRf2, https://coabdm.wordpress.com) como los profesionales especializados en estos asuntos… en su lugar escuché hablar de periodistas y los que los formamos somo precisamente nosotros!!! Pedirte expresamente que en tu proxima intervención en TVE hables de la importancia de esta profesión, colegiada, universitaria, garantista, de plena actualidad, nuestra invisibilización es altísima, a la par que la importancia de nuestro cometido profesional!! ¿Nos echas una mano para darla a conocer y que se respete como se merece? Gracias crack, se te admira ;-) #visibilidadparalaprofesionabyd #profesionalesgestióndeinformación #gestoresdeinformaciónydocumentación #profesionalesdocumentalistas

Dejar un Comentario

Los comentarios están cerrados