Noticias, algoritmos y reajustes necesarios

Mi columna en El Español de esta semana se titula «Rediseñando algoritmos«, y habla de la manera en que compañías como Facebook o Google están intentando responder al problema de las noticias e informaciones ofensivas o factualmente incorrectas permite ver claramente el desarrollo de sus estrategias y la forma en que afrontan los problemas en el funcionamiento de sus algoritmos de relevancia.

En ambos casos hablamos de compañías con una necesidad evidente de plantearse soluciones: Facebook lleva ya varios meses, desde la llegada de Trump a la Casa Blanca, recibiendo acusaciones con respecto a su papel como difusor de noticias falsas durante la campaña que pudieron llegar a alterar significativamente el voto de muchos norteamericanos, mientras Google se ha encontrado también últimamente en el ojo del huracán por las noticias absurdas, conspiranoicas, partidistas o procedentes de fuentes carentes de toda credibilidad que recomienda en sus snippets o a través de Google Home.

¿Cómo rediseñar un algoritmo para evitar el ascenso en popularidad o la recomendación de noticias de ese tipo, respetando el hecho de que hay personas que quieren conscientemente consumirlas (el sensacionalismo y la información sesgada tienen indudablemente su público), pero evitando la viralización de información calificable como factualmente incorrecta?

Las posibilidades que se apuntan, por el momento, son cuatro, y en ambos casos pasan por introducir nuevos datos en la ecuación. ¿De dónde extraer esos nuevos datos que pretenden cualificar las noticias?

Otras fuentes consideradas autorizadas, de páginas dedicadas a esa actividad cada vez considerada más importante, el fact-checking: sitios como Snopes, Politifact u otros que cumplan unos principios básicos de funcionamiento y que dedican personas cualificadas a comprobar las noticias y emiten un veredicto sobre las mismas. Este es el camino escogido por Facebook en una iniciativa ya puesta en marcha, que adjudica a las noticias la calificación de «disputada» en función del juicio emitido por este tipo de páginas, y por Google en Francia a través de CrossCheck, una herramienta desarrollada por Google News Lab junto con First Draft dentro de la iniciativa de trabajo con medios europeos. En esta categoría se encuadra, también en Francia y con carácter experimental, la introducción en los algoritmos de bases de datos como las desarrolladas por Le Monde, seiscientas páginas web directamente identificadas como no fiables; o por Libération, en la que se compilan noticias positivamente identificadas como falsas.
Opinión de los usuarios: el uso de sistemas de peer-rating y la evaluación de patrones derivados de su uso. Ante la difusión rápida de una noticia con carácter claramente partidista, sectario u ofensivo, cabe esperar no solo una viralización rápida entre aquellos que sintonizan con el tono o el contenido de la noticia, sino también un uso de herramientas de calificación por parte de aquellos que consideren esa noticia como factualmente incorrecta o inaceptable. El estudio de los patrones de generación de esas evaluaciones negativas de los usuarios puede ser, unida al análisis de esos usuarios, un elemento más que puede introducirse en el algoritmo.
Patrones de difusión: el análisis de las curvas de difusión de las noticias en sí. Curvas muy rápidas, muy bruscas o que crecen fundamentalmente a expensas de personas identificadas como de una tendencias determinada, en grupos muy homogéneos o con patrones claramente identificables y atribuibles, deberían como mínimo ser objeto de algún tipo de supervisión.
Uso de evaluadores independientes: disponer de un número significativo de personas en diversos países y con un nivel de diversidad elevado dedicadas a la evaluación de esas noticias. Es el caso de la iniciativa recién presentada por Google: diez mil personas contratadas específicamente para esa tarea, que no pueden influir directamente sobre el posicionamiento de las noticias en las páginas de resultados, pero sí generan datos cualificados sobre su nivel de credibilidad y etiquetan noticias como «upsetting – offensive» en función de un exhaustivo documento directriz de 160 páginas para que esa calificación sea utilizada como una variable de entrada adicional (un documento que supone un intento de definición del problema que en muchos de sus apartados debería ser objeto de estudio, crítica y enriquecimiento por parte de muchos periodistas, o incluso llegar a ser utilizado en las facultades de Periodismo).

Es conveniente recordar que en todos los casos hablamos de variables de entrada, no de salida: es decir, no se trata de que un patrón determinado, la opinión de un evaluador o la de una fuente secundaria «descalifiquen» o «eliminen» de manera automática una noticia, sino de que esa información es utilizada para alimentar un algoritmo de machine learning que trata, a lo largo del tiempo, de desarrollar patrones derivados de esa información.

¿Por qué es preciso rediseñar los algoritmos? Sencillamente, porque el entorno al que responden también cambia. Toda herramienta es susceptible de ser pervertida a partir del momento en que los incentivos para hacerlo son suficientes, y eso genera la necesidad de esas herramientas de protegerse contra ese tipo de usos. La mayor parte de los algoritmos que conocemos son, como tales, trabajos en curso que tratan de evolucionar con las características del entorno o con los patrones de uso que generan. El caso de las noticias falsas, como el de los sucesivos intentos de corrección del peso del sensacionalismo llevados a cabo anteriormente por Google, no son más que pruebas en ese sentido.

Como tal, una evolución muy necesaria. Pero además, desde un punto de vista de investigación, completamente fascinante.

This post is also available in English in my Medium page, “News, algorithms and much-needed readjustments»

#001
menestro - 17 marzo 2017 - 15:37
Enrique, los algoritmos no se ‘diseñan’. Son modelos Matemáticos, y utilizan variables abstractas para cribar los resultados, no consideraciones subjetivas.
Por eso, y mientras se desarrolla un algoritmo los suficientemente sofisticado (ya te puse algún enlace aquí), que es una labor ímproba de ingeniería, se está efectuando una criba supervisada por evaluadores, para valorar los resultados, que es para lo que sirve esa guía de calidad de Google.
De esa forma, se perfeccionan los algoritmos que se utilizan en la actualidad a la hora de evitar que muestren resultados de fuentes dudosas.
Quiero entender, que utilizas patrones de difusión en su sentido coloquial y no matemático, pero me temo que la cosa no es tan sencilla, sin meternos en apreciaciones diferenciales, ni cuadernos de Bourbaki. (No es una ‘curva’)
Creo que ya mencioné el Knowledge-Based Trust (KBT), que es el primer abordaje de Google en la materia.
Hasta ahora el único fact checking que se realizaba, era el destinado al Knowledge Vault, que nutre los resultados que ofrece Google en la primera página.
–
Computational Fact Checking from Knowledge Networks
Informing the news: The need for knowledge-based reporting
Knowledge-Based Trust: Estimating the Trustworthiness of Web Sources
#002
Gorki - 17 marzo 2017 - 17:25
Pese a mi desconfianza sobre la capacidad de la IA actual, como medio para «cribar» las noticias, está claro que empresas con Facebook, o Google, no tiene otro sistema que utilizar la IA, para intentar hacerlo,
En mi opinión, deberían de alguna forma, ponderar la fiabilidad de quien emite la noticia, pues parece evidente, que una noticia sobre un pais asiático, emitida por el ministerio de Asuntos Exteriores USA, tiene mas fiabilidad, que la emitida por los grupos rebeldes tibetanos, por decir alguien.
Pero independientemente del éxito que tengan en esta delicada misión, no deberían preocuparse en exceso sobre la actual campaña sobre noticias falsas, porque las emiten periodistas, fastidiados que FB y GL les quiten la audiencia, ¡Que mejor forma de atraer lectores que denigrar a la competencia!.
Basta comparar una critica sobre el mismo partido Madrid/Barça, hecha por el Marca o por Mundo Deportivo, para observar que la información falsa y sectaria, no es ni mucho menos privativa de Internet. Es olvidarse, que la famosa «Serpiente de Verano», noticia que siempre aparecía en la prensa en los días escasos de noticias, es muy anterior a la existencia de Internet.
Hoy es la prensa, (los periodistas), quienes tienen un grave problema de credibilidad, Pese a todas sus deficiencias, que las tiene, me fío mas de las noticias que obtenga en Google, que de un periódico. Baste decir que cuando era joven, (con Franco), leía en tres periódicos la misma noticia, para intentar tener una idea mas o menos exacta de la realidad, Hoy hago lo mismo pero sin salir de Internet y suelo encontrar menos discrepacias ahora que antes.
- Xaquín - 17 marzo 2017 - 18:57
  Me apunto al párrafo final de Gorki. Actualmente la prensa española está en mínimos históricos (en credibilidad) y no tiene nada que enseñarle a internet. También usaba varios periódicos en épocas «pasadas» y había que ser muy «del Régimen» para caer tan bajo como los de ahora.
  - Garepubaro - 17 marzo 2017 - 21:07
    No, si es que lo que dice continuamente el presidente del grupo Prisa, pero todos igual; «Cebrián: “Creo firmemente en el futuro del periodismo”»… ea ya estan mitiendo, en cuanto abren la boca, escriben … y antes
#005
Gana Dinero con tu Blog - 17 marzo 2017 - 21:15
En mi opinión este debate es en cierto modo innecesario y esta práctica creo que devaluaría y empeoraría las prestaciones que nos ofrecen las redes sociales. ¿Por qué? Pues porque Facebook no es Google, en Google ya sabemos que existen algoritmos complejos para que las fuentes que nos dan la información tengan «el mayor prestigio posible». Sin embargo, en Facebook, mi prima puede hacerse un blog de moda y puede hacerse viral en su barrio. Es decir, hay igualdad de oportunidades y todas las opiniones cuentan igual, contrastadas o no. Son precisamente los consumidores de esa información los que han de decidir si compartir, comentar, filtrar o ver qué hacer.
Está claro que está también el debate de las descalificaciones y de barbaridades que pueden decirse en las redes como ocurrió de forma sonada y pudimos ver en las noticias, con el fallecimiento de Bimba Bosé. Pero incluso en estos casos, no podemos poner barreras ni policializar la red, hemos de tratar de convivir con esos comentarios como podemos hacerlo en la vida real y podemos también, denunciar cuando sea necesario.
#006
Diego - 18 marzo 2017 - 19:18
¿Y quien evalua a los evaluadores independientes? ¿Acaso no tenemos todos un sesgo, tendencia o interés que, por ligero que sea, nos incapacita para ser políticamente neutrales?
Y si lo dejamos en manos de los usuarios como indica el punto 2 sería un desastre. Quien domine las redes dominaría «la verdad». ¿Cuantas noticias verdaderas se ven cada día enjuiciadas y cuestionadas de forma falaz por los simpatizantes de a quienes perjudica?
#007
Alfonso - 19 marzo 2017 - 07:51
Todo este debate no puedo evitar que me resulte poco más que académico y/o ingenuo.
Estas grandes empresas viven de que cada vez haya más usuarios y con más actividad. Esta es su prioridad, pensar que van a anteponer la verdad, la ética, los principios a sus ingresos me parece ingenuo.
Gastarán dinero en decir que ‘están haciendo algo’ pero será puro marketing. Su objetivo seguirá siendo el mismo, pastorear esos millones de usuarios para monetizarlos.