Artículos sobre PageRank
Google limpia la red
Escrito a las 7:48 pm
Un sinnúmero de sitios hablan en diferentes términos del último movimiento de Google: un cambio en el algoritmo de calculo de su sacrosanto PageRank que afecta a páginas que incurrían en la práctica de vender enlaces de texto, que había sido especificada como mala práctica por la compañía. Todo parece indicar que la empresa ha realizado una identificación manual de los programas más conocidos de venta de enlaces, bien de manera espontánea o bien utilizando los formularios de denuncia que hace unos meses pidió a sus usuarios que rellenasen, y ha añadido una variable al cálculo del PageRank en la que especifica un peso negativo para estos programas, y lo pondera por el nivel de uso que cada página hace de los mismos. El resultado ha sido la caída en PageRank de páginas sumamente conocidas (The Washington Post, blogs de la red de Weblogs, Inc., Forbes, StatCounter, y muchos más), en algunos casos con caídas de dos o tres posiciones, y en otros con pérdida completa de la puntuación. Se habla también de una posible penalización de redes de páginas con vínculos cruzados, pero hasta donde yo he visto examinando los casos que conozco, no lo tengo nada claro.
¿Mi punto de vista? Otras veces he criticado a Google de forma dura por “cambiar las reglas de juego durante la partida” o por entender que “distorsionaba” el índice, pero en esta ocasión, la acción de Google me parece perfectamente bien, y además, realizada con una gran inteligencia. Sinceramente, creo que quien vende un enlace de texto está accediendo a una práctica distorsionadora dentro de la economía de la atención, que provoca que los sitios que pueden pagarlo reciban una atención que no merecen, y que se trata en sí de algo que debe ser sancionado. Y la vía escogida por Google, una disminución de PageRank de estos sitios, es fácilmente desarrollable con un algoritmo no demasiado complejo, ejerce un efecto inmediato - el que vendía enlaces deja de hacerlo - y, además, es un efecto temporal: si dejas de vender enlaces, desaparece. Precisamente lo que se quería conseguir.
Por la propia naturaleza del negocio de Google, es de esperar una permanente tensión entre el desarrollo del algoritmo de búsqueda y la acción de aquellos dedicados a subvertirlo de cara a sus intereses. En este caso, la respuesta de Google, que tal vez haya cometido el error de tardar demasiado tiempo y dar lugar a toda una industria de venta de posicionamiento mediante granjas de enlaces, me parece mesurada, lógica y bien llevada. Acabará redundando en unas búsquedas de mejor calidad, y no provoca distorsiones artificiales más que temporales: quien ocupa una posición por la calidad de sus contenidos, debería recuperarla en cierto tiempo a partir de la eliminación del comportamiento castigado. La importancia de Google en la red de hoy es indudable: a nadie debe extrañarle que evoluciones y se preocupe por mantener la calidad de su índice. Es más, en la calidad de ese índice a futuro, en esa parte no comoditizada del índice y en que sea capaz de mantener un grado de distorsión lo menor posible estriba gran parte de su valor como compañía.
Google está enferma (Google is sicko)
Escrito a las 6:04 pm
Lo de Google y su “don’t be evil” empieza a sonar cada día más a chiste malo. Esta vez, la enorme metedura de pata ha venido de una empleada, Lauren Turner, Planificadora de Cuentas del Sector Salud, a quien le dio, en un blog corporativo de Google, por escribir una entrada, “Does negative press make you Sicko?“, en la que invitaba a las compañías del sector salud a anunciarse en Google en forma de las denominadas “Issue management campaigns”: campañas de “educación de opinión” en las que el motor de búsqueda se encargaría, por ejemplo, de poner vídeos, vínculos y todo tipo de recursos al alcance del ratón de toda persona que intentase utilizar el otrora neutral motor de búsqueda para obtener información sobre Sicko (ver reseña en Wikipedia) la película documental de Michael Moore. Por muy manipulador o demagogo que pueda considerarse a Michael Moore, la oferta de “educar al público” sobre lo que las compañías quieren que piense no deja de ser profundamente repugnante, digna de una compañía en la que la disculpa de una opinión personal no sirve, porque sólo puede reflejar una forma de hacer las cosas, una “marca de la casa”, un sello indeleble de una cultura corporativa que una vez se intentó definir con algo así como… ¿como era? No sé, no me acuerdo muy bien… Ah, sí, espera… “don’t be evil”.
Lo comentábamos el otro día, al hilo de la desaparición de determinados resultados de la búsqueda de la palabra “ladrones” en Google España: Google ha confundido completamente los términos de su relación con los usuarios, y con su decisión de eliminar dichos resultados, estaba equiparando a los ciudadanos de España con los de China. Una comparación en términos de libertades en la que todos tenemos muy claro quiénes salimos perdiendo. Para Google, es lo mismo: somos meros usuarios, no el Gobierno chino o la SGAE de turno. Esos mandan mucho más que nosotros. El que una vez fue un motor de búsqueda que se diferenció por mostrar a los usuarios los resultados que realmente querían encontrar, por no vender posiciones en los listados de resultados, hoy se dedica a eliminar las páginas que molestan a cualquier entidad con el poder suficiente para hacerse oír o para formular una simple denuncia, y ofrece sus servicios a dichas entidades para “limpiar su imagen” y “educar” a la opinión pública.
Examinemos la definición de PageRank en la web de Google: según la propia compañía,
“PageRank se basa en la exclusiva naturaleza democrática de la web y usa su extensa estructura de vínculos como un indicador del valor de una página individual. Google interpreta un vínculo desde la página A hacia la página B como un voto de la página A por la página B. Pero Google revisa otras cosas aparte del número de votos o de vínculos que una página recibe, puesto que también analiza la página que emite el voto. Los votos emitidos por páginas que son en sí mismas “importantes” pesan más y ayudan a convertir a otras páginas también en “importantes”. (…) Google no vende la ubicación de los resultados en sí (es decir, nadie puede comprar un PageRank más elevado). Una búsqueda Google es una forma sencilla, honesta y objetiva de encontrar sitios web de alta calidad con información relevante para su búsqueda.”
Interesante concepto de “democracia”: miles de votos vinculando a una página determinada pesan mucho menos que la voluntad de una entidad de retirar determinados resultados porque les resultan molestos, aunque éstos sean meramente informativos. En cuanto a no vender los resultados, las evidencias nos muestran también lo contrario: cualquiera con suficientes recursos puede comprar los servicios de empresas que, utilizando mano de obra en países de costes laborales bajos, crean y alimentan páginas financiadas mediante AdSense en las que vinculan a las páginas de los clientes que quieren promocionar. De un sistema que simplemente vendía los resultados al mejor postor, hemos pasado a otro en el que para obtener ese mismo resultado, hay que pagar a la compañía mediante un procedimiento infinitamente menos transparente. Y en cuanto a resultados relevantes… ¿cuanta relevancia le queda a un resultado cuando la empresa que lo ofrece lo rodea de información en sentido contrario porque alguien ha querido pagar por ello? ¿Por qué no combinar las dos cosas? Que Google reco,iende a una empresa de salud norteamericana denunciar a Michael Moore, y así Google elimina los resultados de su índice, nadie encuentra información de la película, y no “maleducan su opinión”…
La entrada de Lauren Turner no deja lugar a la interpretación:
“We can place text ads, video ads, and rich media ads in paid search results or in relevant websites within our ever-expanding content network. Whatever the problem, Google can act as a platform for educating the public and promoting your message.”
En traducción libre,
“Podemos situar anuncios de texto, vídeos y rich-media ads en nuestros resultados de pago o en sitios relevantes en nuestra cada vez mayor red de contenidos. Cualquiera que sea el problema, Google puede actuar como una plataforma para educar al público y promover tu mensaje”
En pocas palabras: aquí se vende todo. Por repugnante que sea lo que hagas, podemos hacer que parezca lo contrario si pagas lo suficiente. Tras leer algo así, ¿que miserable doble moral lleva a Google a excluir anuncios de juego, pornografía y similares? ¿Es Google quien debe decidir si es peor vender pornografía o fomentar la ludopatía que provocar la muerte de los americanos que no resulten suficientemente rentables a una aseguradora? El tema ha sido ya recogido por toda la blogosfera: Boing Boing, Slashdot, The Register, TechCrunch, etc. (impresionante el listado de trackbacks de la entrada original) y situado a Google, con toda la razón, en el epicentro de lo que parece ser “una tormenta perfecta”.
Google es una empresa que fue capaz de crear un ecosistema enorme en el que por un lado generaba la atención de millones de usuarios, y por otro revendía esa atención a todo aquel que quería anunciarse ante ella. Pero esa actividad exige un delicadísimo balance entre los intereses de los anunciantes, y los de los receptores de esos anuncios. Por lo que se ve, Google ha equivocado completamente dicho balance: si eres anunciante, tienes licencia para matar. Si eres un simple par de ojos al otro lado de la pantalla, el que encuentres lo que buscabas depende cada día más de un sinnúmero de factores: que dicho resultado no sea molesto a ninguna entidad poderosa, que no sea contrario a las ideas que algunos anunciantes quieran inculcarte, que no corresponda a la manifestación de un montón de ciudadanos en un sentido determinado…
Desde la irresponsable eliminación de las Google Bombs, el buscador jamás ha vuelto a ser el mismo. Lo dije en su momento: al desactivar las Google Bombs, Google las había hecho estallar nada menos que sobre su credibilidad. Sobre una credibilidad que hoy,está tan profundamente enferma como la idea de “democracia” que la compañía nos quiere vender a quienes no somos más que “pares de ojos con ratón destinados a ser educados”. Decididamente, por este camino vamos mal, muy mal. Habrá que pedirle a Michael Moore que dedique a esta Google convertida en la gran manipuladora, su próxima película. Aunque dudo que para ello haga falta otra película, porque con ésta ya nos ha quedado suficientemente claro: Google está enferma (Google is sicko).
ACTUALIZACIÓN: Una nueva entrada de Lauren Turner nos deja otra perla que define muy bien su posición; “advertising is a very democratic and effective way to participate in a public dialogue”. Interesante el concepto de democracia y de conversación que semejante frase revela que tiene Google: un medio en el que, por definición, se escucha siempre más al que más paga.
“Google se estropea”, en Libertad Digital
Escrito a las 2:11 am
En mi columna de Libertad Digital de esta semana, “Google se estropea“, uno de esos artículos que hacen que se produzca ese fenómeno que tanto me divierte como académico: que los SEOs del mundo hispanoparlante unidos se comporten exactamente igual que como antes lo hizo la industria discográfica, y se abalancen a sus teclados, a sus webs y a los comentarios de mi entrada para criticarme y decirme que no tengo ni idea de lo que estoy hablando.
En perspectiva, la página de Google en la que previene a los administradores de páginas web contra los SEOs que emplean técnicas “demasiado agresivas e intentos de manipular injustamente los resultados”, y mi opinión clara y directa: no tengo NADA en contra de quienes se dedican a enseñar a los administradores de un dominio la forma de aparecer mejor reflejado en un motor de búsqueda, usando técnicas que van desde la redacción de texto hasta sugerencias sobre la arquitectura del sitio y ayuda sobre cómo encontrar directorios relevantes a los que se puede enviar un sitio. Pero sí lo tengo, y mucho, contra aquellos que se dedican a falsear la moneda universal de la atención en la web, el enlace, mediante parques de páginas destinadas a la indexación que disparan vínculos a aquellos clientes que les pagan, con el fin de “inyectarles” PR y hacerles subir artificialmente en los resultados del buscador. Estos SEOs están destrozando el funcionamiento de Google, están llevándonos de nuevo a un sistema de “indexa más arriba el que más paga” idéntico al que teníamos antes de Google y, lo peor de todo, están haciéndolo con la abierta connivencia de la propia Google, que se embolsa encantada el importe de los anuncios de AdSense que estas páginas utilizan para financiarse al tiempo que dejan pasar el tiempo suficiente para librarse del sandbox y para empezar a posicionarse en virtud de unos contenidos que nunca estuvieron destinados a ser un fin en sí mismos, sino un simple medio para poder vender enlaces al mejor postor. El dilema de ser juez y parte: ser cómplice de páginas desarrolladas en ocasiones con trabajadores en países de bajos costes laborales, que se dedican a “picar textos” y a crear infinidad de páginas que enturbian la métrica que un día pretendió servir para medir lo que era relevante o no a nuestras búsquedas en la inmensidad de la web.
¿Qué tiene que hacer Google? Seguir depurando su algoritmo para impedir que aquellos que se dedican a subvertir sus resultados, paguen sus acciones con el más absoluto de los ostracismos del índice. En un sector tradicionalmente muy castigado por este fenómeno, el del turismo, parece evidente que Google ya ha tomado acción: sihace relativamente poco tiempo era imposible localizar la página de un hotel, por aparecer completamente “enterrada” bajo decenas de agregadores y centrales de reservas utilizando técnicas de posicionamiento de todo menos transparentes, hoy parece que la situación ha sido, como mínimo, mitigada: en muchos casos, las búsquedas de hoteles devuelven como primer resultado lo que siempre debió serlo: la página principal de dicho hotel. En el futuro, corresponde a Google continuar con dicho trabajo de vigilancia, poner en cuarentena a los “movers and shakers“, las “subidas rápidas”, y cerrar aquellas páginas que hayan sido claramente creadas para indexar y vender enlaces en lugar de para ofrecer un contenido genuino. Si no lo hace así, tendremos que deducir que Google ya no sirve a nuestros intereses, y habremos llegado a un punto en el que la situación anterior a Google, en la que las páginas se posicionaban pagando, era mejor: al menos era más transparente. El paralelismo con el mundo de la publicidad no es válido, un buscador no es para que las empresas aparezcan allá donde su dinero las pueda ubicar. Un buscador es para que sus usuarios encuentren lo que están buscando, sin contaminación derivada de cuánto ha pagado uno para aparecer por encima de otro más relevante. Si no es así, apaga y vámonos. Google se habrá estropeado, y habrá que desear que venga el siguiente.
Denunciar a Google porque te bajó el PageRank
Escrito a las 9:30 pm
Impresionante. Vía Reuters, Slashdot o Seth Godin, llego a estos “descerebrados con abogados” de un sitio web para niños llamado Kinderstart han denunciado a Google porque les bajó sin previo aviso ni notificación alguna el PageRank, lo que originó que su audiencia disminuyese en un 70% y sus ingresos en un 80%. La demanda aclara que la página aparece arriba de todo en búsquedas similares hechas en servicios de búsqueda competidores de Google, como MSN o Yahoo!, y arguye que es prácticamente imposible contactar con Google para recibir información acerca del descenso de PageRank.
Como dice Seth… llega la era de los SEO-lawyers…
Contestando a JJ
Escrito a las 1:01 am
Como bien sabéis los que me leéis a menudo, una de las cosas que más me fascinan de esto de tener un blog es la posibilidad de entablar conversaciones. En este caso, es una conversación con mi amigo JJ, que desde su Atalaya ha tenido a bien contestar una de mis columnas en Libertad Digital, y que creo que puede generar un ofrecer un diálogo interesante y al que sacarle mucha punta. Vamos allá…
Comencemos por la primera tesis: el hecho de que la red sea o no un sistema caótico. Posiblemente no me haya expresado bien en mi uso del efecto mariposa, pero en ningún momento quise poner a la red como ejemplo de sistema caótico. Es más, en el destacado se ve calaramente, afirmo que la red es “una catedral”, y las catedrales, de caóticas, suelen tener más bien poco. De acuerdo también en que sea un sistema complejo, pero siempre he pensado que su estructura, aunque compleja, se puede representar, seguir y entender. No, no es la red lo que es caótico. Lo que es caótico es lo que están haciendo con ella a la hora de intentar evaluarla. Eso sí es caótico, y sí está lleno de mariposas que baten alas. Lo que se nos puede escapar no es la estructura de la red, sino el hecho de que en un sitio ocurra algo, se diga algo, y no nos enteremos porque las medidas que toma la gente, más que aleatorias, son estúpidas y carentes de sentido… son caóticas.
Y esto nos lleva a la segunda parte, en la que difiero muchísimo más: el sacrosanto pagerank. Dice JJ que “Si un sitio tiene más enlaces entrantes, tiene más pagerank”. Mentira. Mentira absoluta y falsedad documentable. Sin ánimo de llevar el tema a mi caso personal (lo hago porque es un caso que conozco bien y tengo controlado), esta página que estás leyendo en este momento tiene un pagerank de 6. ¿Se debe eso a que tiene, según Technorati, 173 vínculos de 138 fuentes? Puede ser, pero eso es, en primer lugar, otra mentira. Primero, porque la página, al tener ya no dos URL, sino cuatro, tiene en realidad muchos más vínculos entrantes, y un PR que parece un maldito tiovivo. Veamos:
http://edans.blogspot.com = PR 6 (379 vínculos de 264 sitios)
http://www.edans.blogspot.com = PR 2 (379 vínculos de 264 sitios)
http://www.enriquedans.com = PR 6 (173 vínculos de 138 sitios)
http://enriquedans.com = PR 4 (173 vínculos de 138 sitios)
Es decir, en puridad, y dado que quien vincula a una dirección no lo hace a la otra, esos conjuntos de vínculos deberían ser puramente aditivos, y resultar en 552 vínculos de 402 fuentes. Pero eso no lo refleja el “sacrosanto pagerank”, ni Technorati, ni ninguno de los rankings que utilice esas medidas sin depurar. En el caso de Technorati, por lo menos, podemos ver el error y corregirlo. En el caso de la oscurantista Google y su sacrosanto pagerank, ni eso. Es secreto de estado.
Por llevarlo a tu caso, tu misma página, Atalaya, tiene un PR de 6 si tecleamos su dirección normal, http://atalaya.blogalia.com/, pero un mísero 2 si le ponemos una tripleta de W delante, así, http://www.atalaya.blogalia.com/, diferencia que debería ser nula porque ES LA MISMA PÁGINA. No es como mi caso, con una URL adjudicada por Blogger y otra más mnemotécnica, más fácil de recordar… se trata exactamente de la misma página. ¿Por qué semejante diferencia en el pagerank entonces? Muy sencillo: porque el pagerank no es sacrosanto. Es, simplemente, una mala métrica. Una medida mal hecha, con errores groseros e inaceptables para la importancia que se le da. Lo dije hace muchísimo tiempo en este post, “La insoportable levedad del pagerank“, y la situación no ha cambiado desde entonces. El pagerank era una mala métrica hace un año y lo sigue siendo ahora.
Y por tanto, el hecho de que cuando alguien quiera poner un enlace a algún artículo sobre el futuro de la industria discográfica, sea más probable que enlace a PJorge, a ti o a mí acabe haciéndolo a uno en lugar de al otro, sólo demuestra una cosa: que si sigue sólo el criterio de la posición en Google para decidir una cosa así, es que es un descerebrado. Y seguramente tomará una decisión errónea, porque en realidad si lo hace así, la estará tomando al azar. Tendrá que vincular aquel con el que esté más de acuerdo, el que conozca mejor, el que le caiga más simpático, el que sea de su tierra o de su equipo de fútbol. No el que un motor de búsqueda con un criterio menos fiable que una escopeta de feria ponga por delante en función de los enlaces que “cree” que esa página tiene, mezclado con lo “bien programada que está”, y sazonado con vete tú a saber qué ingredientes secretos que encima se niegan a contar a nadie. Si me dices que a más vínculos, más pagerank, mi página tendría que estar encima de la tuya, porque Technorati dice que tienes 447 vínculos de 296 sitios, y eso es menos que los 552 vínculos de 402 sitios que suma la mía (una sola página, no lo olvidemos). Lo cual me trae sin cuidado y no me causa ninguna preocupación, porque seguimos hablando, simplemente, de medidas mal tomadas. De métricas torcidas. De algoritmos que se definen con cinco letras: M, A, L, O y S. De criterios que todos hemos dado por buenos porque en un momento dado eran los menos malos que había, pero eso no los convierte ni mucho menos en infalibles.
También, por cierto, difiero en lo del CSS: ¿qué es eso de que yo tengo que ponérselo fácil a la máquina para que me mida bien??? Ni de coña… que la máquina se las arregle para medirme bien esté yo quietecito, dando saltos o haciendo el pino. Y si no, es que la máquina es mala. A ver si ahora va a resultar que la máquina manda más que yo y soy yo el que tengo que adaptarme a ella… ¿en qué extraño altar dorado ha puesto el mundo a Google, que ahora resulta que las normas, en vez de marcarlas las personas, las marca Google? Me resulta patético ver a todo el mundo optimizándose para salir guapo delante de ese pedazo de miope llamado Google, y ver que haciendo determinadas operaciones se pueden ganar varios puntos de pagerank, ¡¡con el mismo contenido en la página!!
El problema no es el tener dos direcciones. El problema es que los algoritmos que muchos creen infalibles, no lo son para nada. Que el que una página aparezca más arriba o más abajo en Google tiene algo de ciencia, y mucho, muchísimo, de suerte, de caos, de efecto mariposa. Que los enlaces que Technorati afirma que tenemos no son los que realmente tenemos, sino los que Technorati DICE que tenemos. Hay muchos enlaces que no cuenta, y muchos que cuenta dos o tres veces. Comprobadlo. Ojo, tiene su mérito, adoro tanto a Google como a Technorati porque intentan hacer lo mejor posible una tarea de una enorme complejidad. Pero el que lo intenten no quiere decir, para nada, que lo consigan. Solo lo intentan. Y eso puede ser suficiente para que ganen mucho dinero, pero no para que nos arriesguemos a tomar según que decisiones basándonos nada más que en sus intentos.
Al final, termino como terminaba el post de hace un año: La contabilidad de Enron es más fiable que todas esas medidas. Al menos, con la contabilidad de Enron siempre sabíamos que se equivocaba en el mismo sentido.
El efecto mariposa
Escrito a las 12:05 am
Mi columna de esta semana en Libertad Digital se titula “El efecto mariposa“, y previene contra el uso indiscriminado de datos como el PageRank de Google, los incoming links de Technorati o el ranking de Alexa. Cualquiera de los tres contiene en sus estimaciones fallos tan grandes, burdos y básicos que convierten en peligrosísima cualquier decisión no tamizada por el sentido común que no esté orientada a algo tan primario como la mejora de esas propias medidas.
El problema de los servicios gratuitos
Escrito a las 7:43 am
Nos habla Dirson del problema del blog spam en Blogger, algo que llevamos tiempo viendo pero que parece que se está complicando cada día más: se trata de la creación de múltples blogs fantasma, registrados, desarrollados y alimentados mediante programas de automatización de tareas, con la única finalidad de captar tráfico y, sobre todo, PageRank, hacia sitios comerciales en donde se ofrecen servicios de todo tipo. Obviamente, el tema resulta un problema, dado que se trata de una finalidad que pervierte completamente el espíritu de creación de un blog, ocupa espacio en sus servidores, y priva a usuarios legítimos del acceso a nombres de dominio interesantes que podrían ser objeto de un uso adecuado.
Obviamente, el problema viene de la facilidad de creación de un blog en Blogger y del hecho de ser completamente gratuito, algo que lo convierte en una víctima perfecta para este tipo de esquemas. Las soluciones, aparte de la mera inspección manual, pueden pasar por el desarrollo de listas negras (si vinculas a este sitio o tipo de sitios, se te da de baja), desarrollo de pruebas de “humanidad” (test de Turing inversos, como comenta Miguel) asociados a la tarea de creación o a la de publicación, cobro de una cantidad nominal que haga irrentable la actividad de los spammers, o listas de reporte público (peer-evaluation systems).
Un problema relacionado es el de los blogs abandonados: zombies que un día fueron un blog, pero que llevan sin actualizarse muchísimo tiempo, manteniendo ocupados dominios que podrían ser utilizados por otras personas. Dominios interesantes, mnemotécnicos, simples, todo tipo de nombres comunes, etc. se encuentran ocupados por pruebas que un día hizo alguien pero que no fueron a ningún sitio, o por iniciativas abandonadas desde hace más de dos años que ya nadie visita. Antes, lo normal era querer abrirse un blog en Blogger y encontrar, sino a la primera, sçi a la segunda un nombre interesante. Ahora son necesarias pruebas, interacciones y echarle imaginación para lo mismo (algo que yo sé porque muchas veces utilizo Blogger para que los alumnos abran blogs de prueba, contribuyendo así a la proliferación de blogs zombies que sólo reciben ese primer Hello World). Por supuesto, esto hincha las estadísticas de Blogger, de manera que la opción de dejar de ser uno de los servicios más populares de Internet, en una estadística de difícil comprobación, a ser claramente un segundón es algo que no interesa demasiado a la empresa. Sin embargo, la posibilidad de hacerse con un buen dominio ilustrativo y fácil de recordar en Blogger empieza a convertirse en quimérica, de manera que, por pura prevención y profilaxis, va siendo necesaria una operación de “enterrar a los muertos”, una limpieza en condiciones…









