El problema de los enlaces rotos en los libros

IMAGE: The Internet Archive Wayback Machine

Hablé por primera vez con Mark Graham, Director de The Wayback Machine en el Internet Archive, el pasado 20 de mayo, a cuenta de esta entrada sobre el problema del link rot en la red: Mark me contactó a través de un mensaje directo en Twitter para expandir y puntualizar la información que ya había proporcionado en aquel artículo, explicarme que la herramienta que yo mencionaba que permitía mantener actualizados los enlaces de Wikipedia era un desarrollo de su equipo, no de la propia Wikipedia, y que los veinte millones de URLs que archivaban cada mes procedentes de 290 sitios de Wikipedia no eran más que una pequeña parte del total de 1,500 millones que archivaban cada mes.

Semejante dimensión y la buena disposición de Mark me llevó a contactarlo de nuevo cuando estaba en la fase final de la redacción de mi libro, «Viviendo en el futuro«, en cuyas notas al pie aparecen un total de 498 enlaces – algo que no extrañará a los que me leéis habitualmente y sabéis que pongo un gran énfasis en tratar de proporcionar a mis lectores no solo mi opinión, sino también las fuentes de los materiales en los que se basa. De hecho, esa obsesión por los enlaces no tiene nada que ver con ninguna táctica de SEO ni nada por el estilo, sino con una manera de mantener ordenado mi propio archivo de referencias para cuando necesito recuperar información para mis clases, artículos o conferencias: estoy seguro de ser el mayor usuario de las herramientas de búsqueda de mi propia página. La razón para volver a contactar a Mark tenía que ver con mi inquietud por poder ofrecer a los lectores de mi libro una obra en la que los enlaces no caducasen, en evitar que si alguien leía el libro dentro de unos años, no se encontrase una pléyade de errores «404 – No encontrado» al intentar volver a las páginas citadas en las notas al pie.

Mark me contestó inmediatamente, y me proporcionó una forma sencillísima de solucionar el problema: «la mejor manera es una Google Sheet, con los enlaces en la columna A». Lo hice, y en cuestión de horas, en la misma hoja de cálculo aparecieron tres columnas adicionales, una con el estado de la petición, otra con el error correspondiente si se había producido alguno al intentar recuperar la página, y otra con el enlace permanente ya archivado. El procedimiento falló únicamente en unas 45 páginas, y para esas, Mark me ofreció simplemente que utilizase una de sus herramientas de desarrollo reciente, un formulario público para dar de alta en el Internet Archive cualquier página. Lo hice (me llevó menos de un par de horas), y pude entregar a Planeta – fuera de plazo, eso sí… perdona, Roger – una colección de URLs permanentes para poner en lugar de las originales que había referenciado originalmente en mis notas al pie.

Con su buena disposición y su accesibilidad, Mark Graham se ganó un agradecimiento en la sección correspondiente de mi libro, que es poca cosa, y si alguna vez llego a conocerlo en persona, sin duda una buena comida :-) y Planeta se convirtió, mientras nadie me diga lo contrario, en la editorial que ha publicado el primer libro cuyos enlaces están todos archivados de manera permanente en el Internet Archive, a salvo del link rot. Un procedimiento que sin duda se va a convertir en norma para toda aquella obra que tenga cierta pretensión de durar en el tiempo, y que recomiendo vivamente para, por ejemplo, referencias en papers académicos y otros usos similares.

El Internet Archive y The Wayback Machine son cosas que, si no existiesen, habría que inventarlas. Pero ahora, además, son una herramienta fundamental para todo aquel que pretenda crear contenidos y aspirar a que tengan una cierta durabilidad después de archivados. Una actividad que mejora herramientas muy importantes y útiles para todos como Wikipedia, a la que acaba de dotar de previsualizaciones de dos páginas de los libros que cita, pero que también podemos utilizar todos los que creamos contenido en la red. Mediante la herramienta de archivado de páginas puedes, por ejemplo, archivar no solo lo que acabas de escribir, sino también pedir que se almacenen todas las páginas a las que enlazaste en tu página, convirtiendo algo tan modesto como esta simple página personal en algo permanente en el tiempo y que permite recuperar los enlaces que van desapareciendo, dando lugar a una web de más calidad, con menos enlaces rotos, en la que más cosas se salvan de los estragos del paso del tiempo.


This post is also available in English on my Medium page, «Immortality at last! Now there’s a solution to link rot«


10 comentarios

  • #001
    Borja Solis - 4 noviembre 2019 - 10:03

    Me parece muy buena iniciativa, la verdad que cuándo lees algunos libros con referencia a webs y luego ya no existen es un fastidio no poder ampliar la información. Pero me surge una duda: imagina que citas una fuente que luego actualiza o amplia la información. Con tus links estas actualizaciones se contemplan o sólo hay una copia de el momento de la publicación?

    Responder
    • Enrique Dans - 4 noviembre 2019 - 10:15

      Se archiva una copia del momento en que fue citada. Si se actualiza o amplía la información, el problema es menor que si desaparece. Aquí tienes el intercambio que mantuve con Mark:

      Hi Mark! I’m about to publish a physical book, also with electronic version, and it is filled with links… any advices on what should I do to ensure they remain fresh and updated in the future?

      Hmm. Not sure about fresh and updated. But if you want them to remain the same (consistent and persistent) share all the URLs with me and I will archive them and give you back Wayback Machine URLs

      Responder
  • #003
    Jaír Amores Laporta - 4 noviembre 2019 - 10:20

    Buenas! Aquí Jaír, de EfectiVida.

    Muchas gracias por este artículo. Encuentro en él algunas buenas ideas a tener en cuenta, pues, como usted, tampoco me gusta que un enlace al que dirijo desde mi web, vaya a un error 404. Actualmente, uso https://brokenlinkcheck.com/ para detectar este tipo de enlaces rotos, pero me lleva un tiempo, de vez en cuando.

    Sobre lo que comenta de archive.org, me asalta una duda. Tengo entendido que es práctica habitual entre ciertos SEO’s rebuscar en archive.org, para encontrar dominios obsoletos que tuvieron cierta reputación en Google. Una vez los encuentran, compran el dominio, eliminan la información, y meten un montón de artículos “paja”, con enlaces de afiliación, o publicidad de Adsense.

    ¿Afectaría esto a sus enlaces? Es decir, si alguien ha hecho esto con un enlace que usted ha citado, ¿iría a esa nueva página con información que no tiene nada que ver con lo que usted quería?

    Me gustaría mucho saber algo más sobre el tema, si es tan amable.

    Un saludo desde Las Palmas!

    Responder
    • Javier Abascal - 4 noviembre 2019 - 15:36

      Jair

      Buen punto. Cuando entras en archive.org y pides una página el formato que usa es del estilo:

      https://web.archive.org/web/20040830150529/http://enriquedans.com/

      Entiendo que esta iniciativa de archive nos tendrá que dar las referencias a links en una URL que incluya la fecha en que se hizo el volcado. Si no es así el volcado no serviría para mucho, y no vas a ir a buscar en que fecha estaba el link bueno…

      Enrique

      ¿Nos puedes dar un link de ejemplo, que uses en tu libro basado en una URL del archivo?

      Gracias

      Responder
  • #005
    Antonio Gregorio Montes - 4 noviembre 2019 - 11:02

    Gracias a Graham y a ti!

    Responder
  • #006
    Gorki - 4 noviembre 2019 - 12:10

    Ojala hubiera hecho eso en mi blog, pues muchos de los temas que trato son intemporales, como por ejemplo todo lo referente al huerto familiar.

    Yo creo que será una herramienta de obligado cumplimiento para cualquier obra en Internet que desee perdurar en el tiempo

    Responder
  • #007
    Xaquín - 4 noviembre 2019 - 18:38

    Resulta curioso, pero hai entradas del blog tan redondas, que ayudan a ver más claras cosas que parecen algo oscuras, en principio. Como por ejemplo el dicho de que la tecnología de la rueda (o del brazo motriz) está a muchos años luz de la tecnología informática y de la internet.

    Y esperemos que la llamada justicia humana analógica, no intervenga en este tipo de asuntos, con su nefasta manía del «derecho al olvido». Imaginemos que a los autores les diera por querer borrar, lo que han hecho en un momento determinado.

    Responder
  • #008
    Asier - 7 noviembre 2019 - 17:15

    Tengo el libro delante, lo estoy leyendo y éstas son algunas de mis reflexiones acerca de las referencias:

    En un libro para mi gusto están de más los enlaces a definiciones de términos o conceptos genéricos como «revolución neolítica», «serie de TV House», «Facebook», etc., es decir, básicamente todo lo que enlaza a Wikipedia, que es muchísimo en el libro. Lo digo porque información sobre esos términos se puede buscar y encontrar con facilidad en cualquier momento en muchos lugares, no corren el riesgo de desaparecer. Sí que es sin embargo muy buena idea la de capturar artículos o noticias concretas que en cualquier momento podrían cambiar o desaparecer

    Cada referencia ocupa como 3-4 líneas en cada página, hay páginas en las que la mitad del texto son referencias que sinceramente dudo que casi nadie se anime a consultar (al menos en la edición de papel, porque te obliga a teclear una URL interminable). Creo que hubiese preferido ver todas las referencias en un apéndice. Para la edición de papel ofrecer las URLs acortadas creo que podría haber sido una opción interesante (hay varios servicios pero los de WayBack Machine podrían ofrecerlo, no sé si lo hacen, no lo he investigado).

    Responder
  • #009
    Patricio - 8 noviembre 2019 - 16:03

    Hola:

    Me ha parecido muy interesante porque justo ahora estamos preparando un libro digital con muchos enlaces, pero tengo una duda con la opción que dices de Google sheet; he colocado un enlace en la columna A pero pasan los días y no hay cambios, ¿podría especificar mejor esa opción? Para nosotros que tendremos que hacerlo con varias decenas de enlaces, nos sería muy útil. Un saludo.

    Responder
  • #010
    Carlos Hernandez - 12 noviembre 2019 - 12:52

    He adquirido el libro y por si fuera de su interés le comento que al pulsar en algunos enlaces que consideraba interesantes aparece que o no está disponible o no está indico algunos 283,373, 376,391 hay anteriores pero no me acuerdo del número.

    El mensaje que aparece en algunos es el siguiente The Wayback Machine has not archived that URL. O también This page is available on the web!

    Para finalizar, como abogado que ha decidido dejar su céntrico despacho e iniciar un proyecto de servicios legales basado en internet y en automatización de procesos su libro es inspirador. Pienso que al igual que la banca y la prensa escrita el ejercicio de la abogacía va a experimentar enormes cambios. Aunque ya me pilla talludito decidí que lo de tener que ir diariamente a un despacho físico hasta los 65 ( o más) cuando los procedimientos judiciales se realizan ya electrónicamente carecía de sentido y que la ínteractuación física , con las molestias que muchos de mis clientes me comentaban, pedir permisos en la empresa, aparcamiento y tiempo de desplazamiento y espera, deja de tener relevancia si se puede interactuar por vídeo y sobre todo si se da un buen servicio.
    Un cordial saludo.

    Responder

Dejar un Comentario

Los comentarios en esta página están moderados, no aparecerán inmediatamente en la página al ser enviados. Evita, por favor, las descalificaciones personales, los comentarios maleducados, los ataques directos o ridiculizaciones personales, o los calificativos insultantes de cualquier tipo, sean dirigidos al autor de la página o a cualquier otro comentarista. Estás en tu perfecto derecho de comentar anónimamente, pero por favor, no utilices el anonimato para decirles a las personas cosas que no les dirías en caso de tenerlas delante. Intenta mantener un ambiente agradable en el que las personas puedan comentar sin temor a sentirse insultados o descalificados. No comentes de manera repetitiva sobre un mismo tema, y mucho menos con varias identidades (astroturfing) o suplantando a otros comentaristas. Los comentarios que incumplan esas normas básicas serán eliminados.

 

XHTML: Puedes utilizar estas etiquetas: A ABBR ACRONYM B BLOCKQUOTE CITE CODE DEL EM I Q STRIKE STRONG IMG