La importancia de las SIPs de Amazon

Sinceramente: es una empresa que nunca pierde la capacidad de sorprenderme. El último hallazgo interesante de los chicos de Jeff Bezos son las llamadas SIPs, o Statistically Improbable Phrases, que desde hace unos días acompañan a cada libro cuando accedéis a su información, entre el título y la imagen de la portada. Las veremos como un conjunto de palabras o frases que, en los casos en que conozcamos el libro, nos sonarán sin duda mucho, relacionadas con su contenido.

¿Qué son las SIPs y qué importancia tienen? El concepto de «frase estadísticamente improbable» viene de la aplicación del filtro colaborativo a los contenidos de la base de datos de «Search inside the book», que comentamos aquí cuando se anunció, en Octubre de 2003. En aquella fecha, AMazon anunció que disponía de las versiones digitales completas de 120.000 libros con sus treinta y tres millones de páginas, con todas las palabritas convenientemente reconocidas. Esta cifra, que no ha parado de crecer (lo cual es lógico teniendo en cuenta que puede demostrarse que los libros que la incorporan venden en torno a un 10% más), permite a Amazon hacer una cosa la mar de curiosa: una vez dispone de los contenidos completos de un libro, busca en él frases con un número significativamente elevado de apariciones. Después, compara esas frases con la totalidad de la base de datos de «Search inside the book», de manera que obtiene las frases que resultan ser especialmente características de ese libro, las que realmente lo diferencian del resto de la base de datos, las que probablemente utilizaríamos para definirlo. En palabras de Amazon,

Amazon.com’s Statistically Improbable Phrases, or «SIPs», show you the interesting, distinctive, or unlikely phrases that occur in the text of books in Search Inside the Book. Our computers scan the text of all books in the Search Inside program. If they find a phrase that occurs a large number of times in a particular book relative to how many times it occurs across all Search Inside books, that phrase is a SIP in that book.

Hasta aquí, muy interesante. Pero compliquémoslo un poco más: ¿qué es lo que realmente se ha sacado Amazon de la manga con las SIPs? Hace unos días comentábamos la importancia de las tags como sistema de clasificación, y cómo las folksonomies se iban a convertir en una de las fuerzas imparables de Internet, por su importancia a la hora de encontrar información, seguir conversaciones, etc. Sin embargo, todo gira en torno a un «eslabón débil»: la arbitrariedad de las tags. En efecto, al ser las tags un metacontenido decidido arbitrariamente por su autor, cabe la posibilidad de que éste, simplemente, sea poco hábil al asignarlas, o esté poco informado, o desconozca que ese tema suele recogerse en una tag determinada… ¿no os asalta muchas veces ese pensamiento cuando asignáis tags a una entrada determinada?

¿Qué son, en el fondo, las SIPs? Simplemente, una manera de pedir a los libros que se asignen tags ellos solitos mediante un método estadístico no arbitrario. ¿Qué ocurriría si intentásemos aplicar algo parecido a la web? Pues que tendríamos páginas que en función de su contenido y de las frases que aparecen en ellas, y de cómo esas frases aparecen de manera relativa en el resto de la base de datos de páginas de la web, se asignarían tags ellas solitas, facilitando así su categorización e indexación, así como el acceso a la información que contienen. A mí, francamente, me suena a reinventar la web semántica, pero esta vez de manera que funcione de verdad.

Por supuesto, el método plantearía problemas, porque el sistema se basa en la repetición de frases en un número elevado de páginas de un libro, no en el contenido de, por ejemplo, un post en un blog. No digo que todo esté conseguido, sólo pretendo especular sobre en qué dirección va esto. Y por su aspecto, es algo que debería tener a todos los documentalistas del mundo haciendo la ola…

3 comentarios

  • #001
    felgari - 22 marzo 2005 - 08:20

    Para los clientes es muy interesante porque permite localizar otros libros en los que aparecen los mismos conceptos y temas, a que además el número de apariciones de la frase en cada libro.
    Seguro que esto también incrementa la venta de libros.
    Se podría decir que están utilizando los conceptos (hiperenlace) y herramientas que ya se usan en la web para relacionar los propios libros, y conseguir que los que manejan conceptos comunes se apoyen unos a otros (como hacen los blogs). Evidentemente, está por ver que sea la mejor forma de conocer el valor de un libro, pero como idea de búsqueda y marketing me parece muy buena.

  • #002
    felgari - 22 marzo 2005 - 08:23

    Disculpad el error en el comentario anterior, el texto correcto es éste:

    Para los clientes es muy interesante porque permite localizar otros libros en los que aparecen los mismos conceptos y temas, ya que además incluyen el número de apariciones de la frase en cada libro.
    Seguro que esto también incrementa la venta de libros.
    Se podría decir que están utilizando los conceptos (hiperenlace) y herramientas que ya se usan en la web para relacionar los propios libros, y conseguir que los que manejan conceptos comunes se apoyen unos a otros (como hacen los blogs). Evidentemente, está por ver que sea la mejor forma de conocer el valor de un libro, pero como idea de búsqueda y marketing me parece muy buena.

  • #003
    Iñigo González - 22 marzo 2005 - 08:27

    Habrá que ver cómo evoluciona este concepto en su buscador, A9.com.

    De momento están promocionandolo ofreciendo descuentos (discretitos) en Amazon.com a los usuarios frecuentes de la «barra de A9».

    Antes de la campaña de navidades tendremos alguna noticia importante de A9.com.

Dejar un Comentario

Los comentarios están cerrados