Identificando patrones de difusión viral

Facebook, en su cruzada contra las noticias falsas, anuncia un sistema del que ya habíamos hablado en entradas anteriores, pero que aún no se había concretado y que a mí me parece claramente el más prometedor: tratar de identificar mediante machine learning los patrones de difusión de noticias que resultan sospechosos, bien debido al uso de cuentas específicas identificadas como sospechosas de participar en esos esquemas, o por la forma en que se produce esa difusión.

¿Es la identificación de rumores y noticias falsas una tarea adecuada para el machine learning? Todo parece indicar que su uso resulta sumamente prometedor: por un lado, la red social cuenta con un repositorio de datos históricos importantes que han podido ser sujetos a comprobación, repositorio que además crece de manera cada vez más rápida debido a la cada vez mayor actividad de las páginas dedicadas al fact-checking. Por otro, se trata de un fenómeno con patrones identificables, en el que los actores implicados – que pueden ser partidos políticos, gobiernos u otras entidades con un interés en el tema – utilizan habitualmente sistemas conocidos, como cuentas falsas a las que recurren de manera repetitiva, o bots que generan una actividad elevada.

Un sistema similar es el utilizado por Twitter para la eliminación de cuentas creadas de manera automática, actividad en la que ya posee una amplia experiencia, pero que se ha convertido en un verdadero problema a la hora de evaluar la actividad en su red. Al principio, las cuentas falsas eran completamente obvias: cuentas que se creaban para venderlas como followers falsos que inflaban las estadísticas de quien pagaba por ello, pero que permanecían inactivas, y que a partir de un cierto tiempo como tales, eran identificadas como falsas. De ahí, se pasó a cuentas que llevaban a cabo una actividad determinada, tal como seguir algunas cuentas o hacer algunos retweets o likes que también podían ser susceptibles de comercialización, pero respondiendo a patrones generalmente identificables. La carrera continúa cuando esos patrones se someten a sistemas aleatorios para evitar su detección, en lo que empieza a parecerse al argumento de una novela de Philip K. Dick: robots diseñados para no ser identificados como tales, que luchan contra otros robots pensados para hacerlo, y pruebas diagnósticas que evalúan si lo son o no.

En el caso de Facebook y las noticias falsas, estamos aún al principio de esta carrera, pero la carrera armamentística comienza indudablemente más fuerte: los algoritmos de machine learning empleados tratarán de ir empleando metodologías cada vez más sofisticadas, en un intento de identificar los progresos de quienes tratan de esconder esos patrones, y también, por supuesto, de reducir el número de falsos positivos, de noticias reales que se vean sometidas a algún tipo de «cuarentena» por recibir una atención muy elevada de manera muy rápida pero genuina. Identificar los patrones de difusión viral real y separarlos de los artificiales creados en función de unos intereses determinados parece, en efecto, una tarea adecuada para un algoritmo de machine learning, pero también nos lleva a un cierto conflicto de intereses si Facebook pretende comercializar ese tipo de patrones de difusión viral a sus anunciantes, una tentación que ya ha esbozado anteriormente. Pronto empezaremos a ver los resultados.

This post is also available in English in my Medium page, “Identifying viral diffusion patterns»

#001
Luis Hernández - 1 mayo 2017 - 10:42
Siempre me han llamado la atención las similitudes entre una reacción en cadena nuclear y el proceso de viralización de contenidos en las redes sociales. Incluido el papel de la «masa crítica» para hacerlo posible, la velocidad a la que ocurre y lo incontrolable que resulta una vez se ha desatado.
Otra cosa que me da que pensar es que generalmente no encuentro el menor interés a los contenidos viralizados.
#002
Gorki - 1 mayo 2017 - 11:19
El mayor problema es saber qué es una «noticia falsa». Si yo digo que tengo una fotografía del Monstruo del Lago Ness, casi con toda probabilidad es una noticia falsa, pero, ¡OJO!, he dicho CASI, Si el sistema que sea, elimina esa noticia por falsa, si es cierta, está eliminando la noticia del siglo.
También no es cierto que quien recibe noticias falsas no las quiera recibir. Si un grupo de amigos estamos jugando un juego de rol por twitter, todo lo que allí se relata son fantasías, pero no son «noticias falsas» ¿Como distinguir la fantasía de la noticia falsa?
También pasa que hay quien quiere recibir «noticias» aunque sean falsas de ciertas celebridades o políticos, Hay que no le molesta que le llegue una foto de Cristiano Ronldo de «cagañer», aunque sea falsa, porque en el fondo le importa un bledo la vida real de Ronaldo y solo le interesa su imagen pública.
Opino que debemos dejar a quien recibe las noticias, que decida si lo que le recibe de un seguido es de su interés o basura, Si lo considera basura, con eliminar al emisor de su cuenta acabado el problema.
Facebook tiene una solución que a mi me gusta mucho, que es la posibilidad de eliminar de tu TL las noticias procedentes de una cuenta, y que a pesar de todo esa cuenta continúe como seguida, pues a veces no te atreves a dejar de seguir a alguien no lo vaya a tomar como una descortesía. Es la solución ideal para eliminar de tu TL ese pariente cursi que solo manda frases de autoayuda y historias de gatitos, Si además contemplara la posibilidad que aleatoriamente contestara con un «Like» algo de lo que manda el pelmazo, la cosa sería perfecta.
Lo que si me gustaría en Facebook es que su IA, Nachine learning y todo lo que se quiera, ayudara a eliminar noticias determinadas de tu TL a petición del usuario. Por ejemplo, yo pondría en la lista, noticias de gatitos, de perritos, de niños, actualizaciones de fotos de portada,….
#003
Mauricio Luque - 1 mayo 2017 - 11:44
Pretender luchar contra las noticias falsas es como querer eliminar la música mala.
Por un lado está el problema de determinar qué es la música mala o en qué punto una noticia deja de ser tendenciosa para convertirse en falsa. Eso jamás lo va a hacer un algoritmo.
En segundo lugar está la intención de los usuarios a la hora de recibir y redivulgar una mala canción (¿o no es el regaetón lo más vendido y compartido?) o una noticia falsa. Jamás un algoritmo podrá decidir si una noticia titulada «La juventud española emigra en masa al extranjero» que sea compartida en redes sociales por cien mil personas afines a un partido político que tenga esa percepción (sea real o falsa).
Lo curioso de todo esto es que va a dar lugar a un fenómeno inesperado: las redes sociales perderán importancia como lugar de información (para recuperar su función de sitio de cháchara social) y ¡¡¡TACHÁAAAAN!!! los periódicos online recuperarán su papel como fuente reputada de información.
¡Quién iba a decir que al final la difusión de información iba a ser la tabla de salvación de los periódicos!
#004
Garepubaro - 1 mayo 2017 - 12:02
Hombre en internet todo, naturalmente, tiene que acabar siendo falso, pirateria, informacion trampa etc etc … por ejemplo uno tiene una lesion, como fascitis plantar, entoces va buscando la informacion de como curarsela por internet, y se encuentra con que los profesionales, por razones obvias, estan poniendo informacion falsa o incompleta para la curacion, incluso con videos «del tratamiento» que aplican en sus consultas, entonces ya uno tiene que apañarselas para leer el post de algun usuario, que pone informacion correcta de como se la curó, por ejemplo, antes de que se la borren … y asi tengo muchos casos similares
y asi todo, osea igual que en la calle uno normalmente no encuentra monedas ni billetes, en las calles de todo el mundo, sino mas bien TODO LO CONTRARIO peligros y cada vez inventando y surgiendo cada vez mas miles y millones de maneras de como perderas el dinero que llevas en el bolsillo, pues lo mismo se vuelve internet ya en su forma, su evolucion definitiva y natural
#005
menestro - 1 mayo 2017 - 13:27
Hay que puntualizar, que la iniciativa de Facebook no es para detectar noticias falsas, sino para identificar patrones artificiales de viralidad de esas noticias, como likes falsos y la utilización de cuentas y bots ‘ad hoc’ con el propósito de aumentar su difusión.
No veo que amenaza oculta puedes existir en efectuar el equivalente de un filtrado bayesiano de los spammers de noticias falsas, y como puede comercializar y hacer uso esa actividad en detrimento del usuario. Es el cuento conspirativo de siempre, de que las compañías de Internet venden nuestra alma – nuestros datos personales -. No es cierto.
Tampoco veo los robots asesinos rebelándose contra la humanidad, en una carrera armamentística por el filtrado de spammers, es algo que hemos usado desde hace mucho tiempo para luchar contra el spam. Puedo darte esa seguridad y creo que sabes, que estoy bastante familiarizado con el tema del machine learning y temática similar, y acudo a seminarios y ponencias en la universidad.
Suelo hasta autocensurarme para no calentar las cabezas, a la vista de lo viral que se vuelve cualquier delusion sobre el tema.
La expresión ‘patrones de difusión’ te suena porque se aplica en otras áreas de la programación, pero es un término de física, y da entender que son cosas que se utilizan para espiar o algo así de extraño.
Que luego da algo de verguenza leer titulares rimbombantes sobre la futura hecatombe de la IA y los robots. Ya se ha desmontado el hype del Machine Learning unas cuantas veces entre la prensa especializada.
En su abordaje para evitar las Fake news, Facebook está utilizando una herramienta de verificación de hechos (fact Checking) basada en The International Fact-Checking Network (IFCN).
Enrique tienes que darte cuenta que, aunque tu blog no sea una cuenta de facebook, todos los temores y aprensiones que expresas en tus post, sí que pueden ser virales, para personas que los leen y no tienen una formación específica sobre el tema.
–

Labeling fact-check articles in Google News
Computational Fact Checking from Knowledge Networks
Informing the news: The need for knowledge-based reporting
Fact Check now available in Google Search and News around the world
- menestro - 1 mayo 2017 - 21:37
  A veces, no puedo reprimir mi asombro por la cantidad de gente que se anima a perorar en estos temas, sin ni siquiera tener una idea clara de lo que están hablando.
  Ojala hubiese un mínimo de divulgación básica en castellano, para evitar diseminar semejante cúmulo de desinformación y percepciones equivocadas. Que es otro tema.
  Pero no hablo ya de legos, sino de personas que se les supone una formación en cualquier otra área. De algunos supuestos profesionales de la materia, casi mejor no decir nada.
  Dale una cuenta de twitter a un charlatán, y levantará un exoplaneta.
  Algunos están ya rozando el fraude. Sí esos. otros, ya han sobrepasado la línea.
#007
JJ - 1 mayo 2017 - 17:39
No entiendo que sea tan complicado detectar a los bots y eliminarlos de inmediato.
Lo de los likes y seguidores artificiales tampoco. Pero me pregunto quien hizo o hace negocio con eso, comenzando por lo que están dentro (si sabes quien vende el servicio tienes localizada la causa).
Sobre las noticias falsas me parece un problema que se puede resolver mirando automáticamente las fuentes, y si son nulas o pocas o dudosas, entonces, cuando menos se puede advertir al lector. Y con una advertencia sería suficiente para ponerla en duda y evitar así la viralidad.
#008
Pedro - 1 mayo 2017 - 21:07
Hablando de fact checking, los que deberían aplicarse mas en esto son los de Twitter, sobre todo cuando el que escribe es Donald Trump.
https://www.nytimes.com/2017/04/29/us/politics/fact-checking-president-trump-through-his-first-100-days.html
#009
Marcos - 2 mayo 2017 - 00:30
Me está empezando a tocar los c*****s este tema de la lucha contra las noticias falsas.
Porque vamos a ver…:
http://www.lavozlibre.com/userfiles/2a_decada/image/FOTOS%202011/06%20JUNIO%202011/20%20junio%202011/la-raz%C3%B3n-2.jpg
Si la imagen está que traigo yo aquí, es dada por buena ¿qué tipo de mierda infecta de filtro habrá en Facebook?
Y claro ¿la va a dar por buena? Porque a priori, al ser un medio de comunicación serio y respetable (……..), habrá que obrar en su buena fe ¿verdad? Así que este tipo de contenidos obviamente «no se van a dar en este tipo de medios» ¿no?
¿ O sí?
¿Nos planteamos ahora sí Facebook va a empezar a desarrollar su Master «ética y buen hacer en el periodismo» para ayudar a no mentir y manipular a todos los medios que se apunten a las clases? Va a hacer Facebook ese tipo de trabajo ¿no?
Y encima ¿lo va a hacer con medios de comunicación masivos que son algunos de los que más tráfico reciben de la red social y que hacen que allá más movimiento después, dentro de ella?
Que sí, que está muy bien el mundo de color de rosa e intentar evitar la cuarta muerte en lo que vamos de siglo de no sé qué estrella famosa en las redes sociales, pero quizás nos debiéramos de preocupar por casos más serios y ante todo realmente peligrosos para lo que representan. El ejemplo mismo, la imagen que ya he traído.
Así que los filtros de las redes sociales, me parecen absurdos y basura, que reforzará la mierda que haya en dichas redes, por el mero hecho de haber pasado los filtros de lo engañoso.