Estilometría y anonimato

Pluma y tintaLa reciente revelación de la identidad de la escritora británica más vendida de todos los tiempos, J. K. Rowling, en su publicación con seudónimo de una novela policíaca, The cuckoo’s calling, me ha llevado a leer algunas cosas sobre la estilometría, la aplicación de los elementos del estilo lingüístico en muchos casos a la atribución de autoría de textos. Aunque el caso de J. K. Rowling, saldado finalmente con una indemnización convertida en pago a una entidad benéfica, fue iniciado en realidad por una indiscreción en Twitter de su bufete de abogados, la estilometría fue la tecnología que The Sunday Times utilizó para verificar la información que finalmente decidió publicar.

El anonimato es percibido por muchos como un derecho, e incluso recibe protección legal en muchos contextos por su papel a la hora de proteger derechos como la libertad de expresión sin estar sujeto a presiones, acoso, intolerancia o represalias. En el caso de la autoría de una obra, el anonimato o el uso de seudónimo permite una libertad creativa y una posibilidad de presentar una obra sin estar sujeta a los sesgos provocados por contextos anteriores, y es un recurso utilizado habitualmente por muchos autores.

La estilometría utiliza una variedad de técnicas analíticas para lograr la caracterización de un texto. El uso de determinados patrones gramaticales de un texto (artículos, pronombres, conjunciones, verbos auxiliares, interjecciones, etc.) permite, mediante análisis de componentes principales, obtener una huella característica de un autor, que puede ser utilizada con propósito de atribución. Otras técnicas utilizadas son las redes neuronales, los algoritmos genéticos o el análisis de asociación de palabras, en búsqueda de pautas reconocibles.

En un entorno como la red, la estilometría puede suponer un arma fundamental en el arsenal analítico de los gobiernos. Poder caracterizar a un posible activista en función de sus escritos, poder atribuir determinados textos, almacenar las huellas estilísticas de todos los ciudadanos a partir de lo que escriben en la red o ser capaz, incluso, de utilizar estas técnicas como prueba procesal supone una presión añadida al clima de vigilancia en el que estamos viviendo. De ahí el desarrollo de JStylo-Anonymouth, una herramienta diseñada por estudiantes del Privacy, Security and Automation Lab (PSAL) de Drexel University, que permite analizar un texto y sugerir los cambios necesarios para evitar la caracterización del mismo mediante el uso de técnicas de estilometría (descritas en más profundidad en este estudio). Una especie de “estilometría inversa” al servicio de aquellos que consideran importante resguardar su anonimato.

El tema me ha llamado la atención, al tiempo que me ha despertado interrogantes. Me imagino que las pautas estilísticas se perderán en un cambio de idioma, por ejemplo, o incluso que se generarán otras posiblemente diferentes. O me pregunto qué ocurrirá en el caso de documentos de autoría compartida, en los que múltiples autores se reúnen, por ejemplo, en un documento en el que se dan procesos de escritura, enmienda y reflexión colectiva  – la gran mayoría de los procesos de activismo en los que he participado han tenido lugar en torno a herramientas de este tipo. La idea de que lo que escribes lleva, en cierto sentido, “tu huella” y que esta puede ser utilizada para caracterizarte con un nivel de precisión significativo es, como mínimo, intrigante, como lo es el posible uso por parte de determinadas agencias gubernamentales que operan al margen de todo control. Un tema en el que, sin duda, es necesaria muchísima reflexión.

 

(This post is also available in English in my Medium page, “Stylometry and the right to anonymity“)

13 comentarios

  • #001
    Observador - 7 agosto 2013 - 13:05

    El pseudónimo o anonimato ha sido muy utilizado en la historia de la literatura para poder ampliar la libertad de expresión allí dónde realmente sí había censura. Claro que censura era el poder arbitrario para poder eliminar una opinión contraria, no la primera imbecilidad dicha por un/a gilipollas en cualquier cargo y que además trata de hacer una gracieta con las víctimas de un accidente, que casualmente no son sus familiares. También hay que ser bastante imbécil para no diferenciar esas dos situaciones… Pero ya sabemos que en España gusta el humor negro sobre todo cuando no te afecta y ademas se considera libertad de expresion porque en España todo bale (de baler dinero, no del jugador de furgol).

    Por lo demás la estilometria tiene de efectiva la consciencia del analizado. todos podemos saltarnos el hestilo sin que hubiera ningun tipo de analisis automatico que pueda comprobar 100% la misma autoria. la ultima bez que alguien hizo una especie de estilometria me confundieron con Peter Dans (fue en éste blog). No digo mas… Pero si lo digo de forma distinta, por si acaso.

    Para temas de plagios tampoco ha tenido que usarse, si no qe se lo digan a algun que otro premio novel español… De casta le viene al galgo, que suele decirse.

  • #002
    Antonio Castro - 7 agosto 2013 - 13:10

    Los traductores y los correctores de estilo intentan adaptarse al estilo del autor pero creo que las tendencias a un determinado estilo son demasiado fuertes como para que ese tipo de tareas resulten triviales.

    Opino que un corrector de estilo debería limitarse a corregir lo que caiga dentro de la categoría de “error de bulto” y no tocar el resto o terminará convirtiendo una obra en otra diferente.

    El estilo forma parte de la personalidad y del bagaje cultural y literario del que escribe y gracias a eso es posible aplicar las técnicas que acabas de comentar.

  • #003
    antonio garcia saenz - 7 agosto 2013 - 13:27

    Vale el dicho “por sus palabras los conocereis”, yo utilizo mucho la palabra “millones” como hacia Carl Sagan je je … pero si, aqui en un periodico de toda una comunidad autonoma o region española con millones de posibles posteadores, tengo identificados lo menos a tres amigos, gente que escribe con su seudonimo, su mote para internet, y es curioso como entre una mezcla de sus palabras, estilo y sobre todo permanentes creencias se a quien pertenecen esos seudonimos y es bastante divertido, estan mas locos y radicales de lo que creia … todo el mundo se cree que tiene la solucion del mundo si lo dejaran a el de ministro, lo mismo en los blogs, periodicos que en hablando en la barra de los bares etc … una vulgaridad simpatica, ahi estan sus voces, pero que da realmente miedo si toda esta gente gobernara …

  • #004
    alex - 7 agosto 2013 - 13:45

    El anonimato o la privacidad son en esencia, una restricción de la información. Una limitación del conocimiento. Hasta el día de hoy, esta restricción está justificada debido al papel y desarrollo de la individualidad en la sociedad. Sin embargo el desarrollo tecnológico es tan inevitable como el aumento (progresivo) de nuestro caudal de conocimientos. Es decir, es completamente lógico que conforme aumenta nuestro conocimiento del universo sea mas difícil mentir y/o ocultar información. Y en cierto modo debe ser así si recogemos los principios del humanismo. “Todo lo que es humano, pertenece al humano”

    De una manera o de otra, nos movemos en esa dirección y no veo porque tenga que ser expresamente algo negativo. Imaginar una sociedad en la que nadie oculte nada porque nadie tiene nada ocultar es ahora mismo mas que una utopía. Es una quimera. Pero somos una especie joven que aun tiene mucho camino por andar.

    Pd: una vez lei un relato de ciencia ficción (creo que de Philip K Dick) en el que las personas estaban conectadas al “nexo” y sus cerebros como ordenadores, estaban todos conectados en una gran red. Todos tenían libre acceso a todos los conocimientos, pensamientos y emociones de todos. Era una sociedad muy prospera, poligámica, bisexual, pacífica, adaptada y mejorada por Ingenieria genética, gobernada por una suerte de megademocracia consensuada. Precisamente el malo de la historia, el elemento discordante, es el que precisamente opta por estar al margen del sistema en aras de la libertad.

    Sé que ahora mismo algo así parece muy lejano e improbable, incluso discutible. Pero si analizamos objetivamente todo nuestro progreso científico a mi parece una hipótesis bastante coherente.

  • #005
    Jose - 7 agosto 2013 - 14:36

    El harsenal analitico del govierno ba ha clasificar este mensaje en la kategoria cani/choni/logsero.

    Luego sólo tendrá que discriminar entre unos cuantos millones (y subiendo) para encontrarle un autor.

  • #006
    Javier Quintana - 7 agosto 2013 - 15:02

    Curiosamente, estos días se habla mucho de lo contrario: demostrar que una persona no ha escrito un texto que afirma haber escrito. Me refiero a las acusaciones de plagio de tesis doctorales que incluyen pero no están limitadas a altos cargos del Parlamento alemán, siendo el caso más reciente el del Presidente del Bundestag, Norbert Lammert.

    Tras un breve paseo por Google, he encontrado que dichas acusaciones provienen de una comunidad alemana, VroniPlag, que utiliza un wiki como base de operaciones. Lo que hace notable a VroniPlag es que publican sus conclusiones en unas gráficas en las que queda representado el porcentaje de plagio en cada página: rojo claro representa más de un 75% plagiado, rojo oscuro entre 50% y 75%, negro entre 25% y 50%.

    Es otro ejemplo de la fuerza que tiene el crowd sourcing: cientos de personas analizando cada página de un texto (partiendo de una sospecha fundada enviada por una sola persona). Aunque existe software dedicado a detectar plagios y se había utilizado, no es comparable a la capacidad de cientos de pares de ojos humanos analizando cada página.

    La mayoría de los casos de plagio flagrante han resultado en la rescisión del doctorado por parte de las Universidades y a la apertura de muchos debates. Una vez más, ciudadanos anónimos demuestran que se pueden cambiar las cosas.

  • #007
    Cristina - 7 agosto 2013 - 15:51

    Pensándolo bien, analizar la secuencia de las letras o la habilidad para generalizar, en el metodo de redes neurológicas, te da un perfil? O se puede afinar en la habilidad por aprender? Ayer pensaba en esto: en una reunión, de repente entendí/comprendí, lo necesario de situar decisiones en contextos globalizados. Yo sabia que era necesario, pero supe que lo comprendí a través de varias reflexiones junto a un curso que estoy haciendo. Te sitúas en una posición de tener que pensar (aunque haya momentos duros) y ese esfuerzo, al comprender la intención de hacerte pensar, hace que mejores tus habilidades, versus, te doy la informacion y la digieres. Dos sistemas distintos. En uno puedo relacionar conceptos dados. En otro, realizo un proceso de sintetizacion, de síntesis.
    Se notara ahora en mi estilo de escritura, esta nueva habilidad? :-)

  • #008
    Mario - 7 agosto 2013 - 17:17

    Creo que el error aquí es presentar los giros lingüísticos, las muletillas idiomáticas que todos tenemos, como una prueba plena de identificación. Aunque es cierto que en algunas investigaciones se ha recurrido a un peritaje de este tipo para señalar o descartar culpabilidades, al final lo que se consigue con esta metodología es solamente indicios: no es un adn, ni siquiera una huella digital que permitan obtener, fuera de dudas razonables, conclusiones de autoría.

    El problema es que las muletillas, los giros, los términos recurrentes son fácilmente copiables. No debe ser muy difícil confeccionar un texto amenazando de muerte a algún autor que reclame sus derechos, escrito “a la manera de” Enrique Dans. Todos los elementos para ello, las metáforas, la corrección del idioma, la extensión de las frases, los insultos favoritos de Enrique, están en este blog. ¿Podría alguien acusar y condenar a Enrique por amenazas basado solamente en un texto escrito, “a la manera” de Edans? Sin duda que no.

    En general me resisto a usar el término estilo en este caso aunque en efecto los forenses lingüísticos así lo hacen. En primer lugar el estilo depende del contexto. Una misma persona puede usar un estilo literario para una novela, un estilo epistolar en su correspondencia, un estilo coloquial en su conversación. Luego lo que podemos considerar un estilo literario identificable y muy difícil de replicar, es decir, el que sí sería determinante en una investigación, en realidad solo lo consiguen los grandes: los autores que corrigen y pulen cada línea obsesivamente. Ni siquiera todos los escritores basan su éxito en un gran estilo literario: Vargas Llosa no lo tiene, Cabrera Infante sí; Norman Mailer no lo tiene, Truman Capote sí. Un párrafo de GCaín o de Capote son mucho más característicos, con una impronta o signature realmente difíciles de emular rsepecto a los otros dos -esto por supuesto no desmerece ni a Mailer ni a Vargas Llosa que tienen otros atributos no menos importantes como escritores-.

    Hecha esta salvedad, las tareas de un forense lingüístico son mucho menos trabajosas gracias a la informática, sobre todo porque permite el escrutinio rápido de gran cantidad de textos (y a más mejor) en una labor que es casi estadística de esta profesión. Cualquiera que haya leído un informe pericial de estos se dará cuenta de lo que hablo. Mi verdadera duda es sobre el futuro de este tipo de pruebas puesto que si un software facilita la identificación también servirá para lo contrario, esto es, para que alguien oculte o atribuya a un tercero un texto por el que no quiere asumir responsabilidades. El mismo soft que sirve para decir que esto lo ha escrito Pedro, lo podrá usar Pedro para corregirlo y hacer parecer que lo ha escrito Juan. Al final del día lo que ha pasado es que se ha perjudicado irremediablemente la útilidad que podía tener este tipo de estudios en el ámbito de la investigación policial.

  • #009
    Rodrigo - 7 agosto 2013 - 19:41

    Off-topic.
    ¿Cual es tú opinión sobre la venta de “The Washington Post” por parte de Amazon?

    Un saludo,
    Rodrigo

  • #010
    Rodrigo - 7 agosto 2013 - 19:41

    Perdona, era compra

  • #011
    Juanfran - 7 agosto 2013 - 19:44

    Enrique, leyendo tu entrada pensé en un ejemplo de estilo que, quizás, te puede resultar útil o interesante (sólo a ti). Prueba a buscar algunos adverbios en tu blog, y más en concreto: “decididamente”. Compara el número de resultados con otros blogs similares.
    Saludos.

  • #012
    batch4j - 8 agosto 2013 - 08:39

    En un mundo donde el “plagio” esta extendido, solo hay que ver las presentaciones powerpoint clonadas de la wikipedia o el copy/paste o cut/paste que hemos visto en libros, cartas de politicos, etc

    Mientras no nombremos las fuentes y nos cortemos un poco con el plagio todos pareceremos escritores de la wikipedia.

    Hace mas de 10 años vi codigo copiado de un amigo mio en un proyecto que nos vendio una empresa donde no habia trabajado …

  • #013
    Dubitador - 15 agosto 2013 - 20:53

    Pues si, los gobiernos pueden hacer muchas cosas, pero la mayoria estan arruinados y endeudados con los bancos, pues no deben meterse en lo que hacen los “mirificos emprendedores”, en particular los mas gigantescos.

    La pasta, o sea el poder, lo tienen esos gigantescos “emprendedores”.

    Son ellos los que usarán los instrumentos del gobierno, costeados con dinero publico, para hacer las investigaciones que les interesen y asi los gobiernos, los politicos al cargo, se llevaran las tortas cual payasos del circo y seran recompensados con algun carguito de consejero tras haber prestado los correspondientes servicios en la pista del circo.

    Aqui un profesor titular de Teoría Económica de la Universidad Autónoma de Madrid, explicando que los Estados, los gobiernos, deben usar los recursos publicos para ayudar a las “transnacionales patrias” que evaden al fisco todo lo que pueden:

    La inteligencia económica
    http://elpais.com/elpais/2013/07/04/opinion/1372933491_012639.html

    Aqui con profusion de palabreria de escuela de negocios se vierten justificaciones para que los espias a sueldo del Estado se dediquen a prestar servicios a nuestros empresarios transnacionales:

    El servicio secreto entra en la ‘guerra económica’
    http://sociedad.elpais.com/sociedad/2012/03/26/actualidad/1332762326_179566.html

Dejar un Comentario

Los comentarios están cerrados