Big Data: una pequeña introducción

Llevo ya un cierto tiempo recopilando información sobre Big data e introduciendo nociones sobre el tema en algunos de mis cursos, pero hoy mientras preparaba una conferencia me he dado cuenta de que era un tema que aún no habíamos mencionado en la página, a pesar de ser una de las tendencias más señaladas actualmente en la industria.

Por Big data nos referimos exactamente a lo que su propio nombre indica: al tratamiento y análisis de enormes repositorios de datos, tan desproporcionadamente grandes que resulta imposible tratarlos con las herramientas de bases de datos y analíticas convencionales. La tendencia se encuadra en un entorno que no nos suena para nada extraño: la proliferación de páginas web, aplicaciones de imagen y vídeo, redes sociales, dispositivos móviles, apps, sensores, internet de las cosas, etc. capaces de generar, según IBM, más de 2.5 quintillones de bytes al día, hasta el punto de que el 90% de los datos del mundo han sido creados durante los últimos dos años. Hablamos de un entorno absolutamente relevante para muchos aspectos, desde el análisis de fenómenos naturales como el clima o de datos sismográficos, hasta entornos como salud, seguridad o, por supuesto, el ámbito empresarial. Y es precisamente en ese ámbito donde las empresas desarrollan su actividad donde está surgiendo un interés que convierte a Big data en algo así como «the next buzzword», la palabra que sin duda escucharemos viniendo de todas partes: vendedores de tecnología, de herramientas, consultores, etc. En un momento en que la mayoría de los directivos nunca se han sentado delante de una simple página de Google Analytics y se sorprenden poderosamente cuando ven lo que es capaz de hacer, llega un panorama de herramientas diseñadas para que cosas inmensamente más grandes y complejas puedan tener sentido. Tenle miedo, mucho miedo.

¿Qué hay exactamente detrás del buzzword? Básicamente, la evidencia de que las herramientas de análisis no llegan para poder convertir en información útil para la gestión empresarial los datos generados. Si tu empresa no tiene un problema con la analítica de datos, es simplemente porque no está donde tiene que estar o no sabe cómo obtener información del entorno: en cuanto unimos a la operativa tradicional y a las transacciones cuestiones como una cada vez más intensa interacción bidireccional con los clientes y el movimiento de analítica web que generan las redes sociales de todo tipo, nos encontramos un panorama en el que no estar supone de partida una desventaja importante con respecto a quienes sí están. Se trata, simplemente, de que operar en el entorno con mayor capacidad de generación de datos de la historia conlleva la adaptación de herramientas y procesos. Bases de datos no estructuradas, no convencionales, que pueden alcanzar petabytes, exabytes o zetabytes, y que requieren tratamientos específicos por sus necesidades tanto de almacenamiento como de procesamiento o visualización.

Big data fue, por ejemplo, la estrella en el último Oracle OpenWorld: el posicionamiento adoptado es el de ofrecer máquinas enormes con capacidades descomunales, procesamiento multiparalelo, análisis visual sin límites, tratamiento de datos heterogéneos, etc. Desarrollos como Exadata y adquisiciones como Endeca soportan una oferta basada en el pensar a lo grande, que algunos no han dudado en discutir: frente a esa aproximación, la realidad es que algunas de las compañías más centradas en el tema, como Google, Yahoo! o Facebook o la práctica totalidad de las startups no utilizan herramientas de Oracle y optan, en su lugar, por una aproximación basada en lo distribuido, en la nube y en el código abierto. De código abierto son Hadoop, un framework sumamente popular en este campo que permite a las aplicaciones trabajar con enormes repositorios de datos y miles de nodos, creado originalmente por Doug Cutting (que le dio el mismo nombre que tenía el elefante de juguete de su hijo) e inspirado en herramientas de Google como MapReduce o Google File System, o NoSQL, sistemas de bases de datos no relacionales necesarios para albergar y procesar la enorme complejidad de datos de todo tipo generados, y que en muchos casos no siguen la lógica de garantías ACID (atomicity, consistency, isolation, durability) característica de las bases de datos convencionales.

En el futuro: un panorama de adopción cada vez mayor, y muchos, muchos interrogantes. Implicaciones de cara a los usuarios y su privacidad, o a las empresas y la fiabilidad o potencialidad real de los resultados obtenidos: como dice el MIT Technology Review, grandes responsabilidades. Por el momento, una cosa es segura en Big data: prepara tus oídos para escuchar el término.

#001
Antonio Garcia Saenz - 19 octubre 2011 - 15:49
Esos inmensos chatarreros o basureros, con toneladas y toneladas de chatarra… donde empresas especializadas continuamente saben sacar el valor, el cobre, el carton, a miles de toneladas de desechos, y sacarle una rentabilidad … ¿ es este el modelo de internet, sacar de entre millones de gigas de informacion desecho, ya billones gigas de ruido , de tantos usuarios, constantemente el reducto, el neto extraido, de utilidad, de rentabilidad ?… ¿no da algo de vertigo esto?
#002
BBVAtech - 19 octubre 2011 - 15:53
De todo el análisis que realizas (y felicidades por él, Enrique), hay una advertencia muy seria pero que por ir diseminada en el texto quizá no atrapa la atención como el despliegue de herramientas que citas. Y sin embargo es fundamental: «Si tu empresa no tiene un problema con la analítica de datos, es simplemente porque no está donde tiene que estar o no sabe cómo obtener información del entorno». Tanto si es una firma ausente, como si actúa sobre la ignorancia, está dejando perder una oportunidad tras otra.
Muy buen enfoque.
#003
Paco - 19 octubre 2011 - 18:05
Hay un pequeño error de traducción: los quintillones americanos son miles de billones europeos. Hablamos del orden de 2.500 TB. Saludos
#004
Antonio Castro - 19 octubre 2011 - 18:08
Un procesador que continuamente se enfrenta a ese problema de exceso de información, es nuestro propio cerebro, y la solución que usa consiste en sacrificar el procesado de ciertas partes de la información en beneficio de aquellas que potencialmente se consideran más interesantes.
Los casos excepcionales, tales como la memoria fotográfica, suelen ir acompañadas de disfunciones en otras actividades mentales. Es el caso de ciertos autistas por ejemplo.
Por esa razón creo que los paradigmas relativos a este tipo de problemas pueden diferir mucho entre sí dependiendo del tipo de problemas que se deseen afrontar.
#005
cronosnull - 19 octubre 2011 - 18:08
BigData es un tema sumamente relevante y desarrollos como Hadoop, con el que he trabajado bastante en los últimos 2 años (mordiendo hadoop), Pregel y las bases de datos tipo NoSQL, facilitan mucho su manejo usando infraestructuras distribuidas que escalan horizontalmente. De esto se han dado cuenta IBM (con Biginsights) e incluso Oracle (con su «BigData appliance») basados, totalmente o en parte, en Hadoop.
Es un tema que apasiona :P
#006
matias diaz - 19 octubre 2011 - 19:20
Excelente articulo enrique.
De esto lo que mas me preocupa es que no veo control sobre nada, todo el mundo produce datos, gigas y teras, etc., pero sucede que todo el mundo es amo y señor de sus datos, o quizas deberia decir nuestros datos que ahora son de ellos y negocian con ellos, pero entiendo que deberia haber algo o alguien que regule esto, para que esas herramientas analiticas esten enfocadas en algun estandar, porque como dices, son datos hetorogeneos que al final creo nos llevaran a un caos.
pero bueno, lo importante es que existen herramientas para lidiar con ellos, pero podria ser menos traumatico.
#007
Gorki - 19 octubre 2011 - 19:25
En otros tiempos, cuando yo trabajaba en informática, (hace unos 10 años), se hablaba mucho del Datamining, que venia a ser algo parecido, explorar en los datos buscando valor.
Entonces era un campo estratégico, pues al aumentar en las empresas la rotación de empleados, (cada vez había más eventuales y colaboradores y menos empleados fijos), se decía, que la empresa sufría una perdida de conocimientos cada vez que un empleado se iba pues se iban los conocimientos sobre el negocio con él. Se deseaba conservar información sobre los clientes, opinión del mercado sobre los productos y cosas por el estilo, por lo cual era necesario que las máquinas apredieran d a extraer el conocimiento existente en todo tipo de información existente en la empresa, no solo en pedidos y facturas, (estadísticas de venta), sino en e-mails, y todo tipo de documentos no estructurados, como informes, mensajeria instantánea, etc, de modo que una parte al menos lo que el empleado desaparecido sabía se recuperara por este camino para su consulta por el que le sustituyera, en el en caso necesario.
Se gastó mucho en ello, em España hubo una empresa llamada Meta4 (Metafora) que lo intentó todo, pero el resultado no fue muy afortunado y la empresa `paso una crisis muy grande hasta que la compro Baan, una empresa competencia de SAP que creo que también fracasó en el intento.
Desde entonces no había sabido de más intentos en ese campo, aunque Meta4 sigue funcionando en lo que era fuerte, las nóminas.
Es muy proyecto muy prometedor, sacar valor de cerros de información heterogénea, pero muy difícil de gestionar, las sutilezas del lenguaje escrito aun no son captadas por la inteligencia intelectual, mucho menos la comprensión de las imágenes. Pero puede que se haya avanzado mucho en este campo, ya no estoy en conectado con los temas y no estoy al día.
#008
angelitos2 - 20 octubre 2011 - 00:38
Un tema enormemente interesante y que puede incluso llegar a enloquecer al mas prudente que se atreva a intentar profundizar en él.
Cito parte de un artículo sobre la conferencia Big Data 2011:
El camino de Microsoft
Entre los múltiples proyectos que puede tener en marcha un gigante como Microsoft relacionados con Big Data, hay que destacar uno de ellos por su objetivo: compilar una cantidad masiva de datos estructurados que puedan ser utilizados como base de aplicaciones de inteligencia artificial.
La arquitectura de Trinity
Se llama Probase y es, según la definición de Microsoft Research, un “un proyecto en marcha que se centra en adquirir conocimiento y servir conocimiento”. Su objetivo principal es “permitir que las máquinas entiendan el comportamiento y la comunicación humana”. Se nutre de una nueva base de datos orientada a grafos llamada Trinity.
Según la compañía, Probase es mucho más rico que otras bases de datos porque estructura la información en tres dimensiones: concepto, datos y dimensión de la relación. Uno de sus elementos más importantes es que “como el conocimiento que hay en nuestra mente, no lo ve todo blanco o negro. Probase cuantifica lo incierto”. Como un ser humano, no toma los datos como hechos, sino creencias o afirmaciones.
Este trabajo resultar muy útil para un buscador como Bing que siempre se ha etiquetado como un motor con más inteligencia semántica. Probase rivaliza directamente con Freebase, que fue desarrollado por Metaweb, ahora en propiedad de Google.
No es difícil encontrar la conexión entre Bing, Probase, Trinity y Dryan, una alternativa a Hadoop de la casa. Microsoft está construyendo un conjunto de herramientas para rivalizar con las que usa Google internamente y las herramientas de código abierto que emplean otros como Facebook y Twitter. Lo interesante será ver qué es capaz de hacer Microsoft con esos datos.
http://innovacion.ticbeat.com/estrategias-big-data-empresas-2011/
#009
Mauricio - 20 octubre 2011 - 13:50
Pues parece que muchas empresas sueñan con lograr incrementar sus ventas a través del análisis de los datos que dejamos en sus sitios web o en el de sus asociados, mientras nosotros vemos para otro lado o, incomprensiblemente, hacemos una defensa apenas tímida del valor de nuestra privacidad.
En contraposición, pienso que hay una gran cantidad de datos relevantes que la gente sí aporta de manera voluntaria y que, paradójicamente, prácticamente no se usan. Tomemos por ejemplo el caso de los comentarios en este mismo blog: hay muchas opiniones bien fundamentadas que se han dado sobre diversos temas, que fácilmente podrían abarcar o ser la base de al menos un par de libros enteros, pero que en la práctica yacen en el profundo olvido, sin que nadie se preocupe de darles el valor que tienen. Esta es una inteligencia colectiva que definitivamente se está perdiendo en la inmensidad del ciberespacio. Si hay quien recopila «tweets» y los agrupa en forma de libro, ¿no sería más relevante aún recopilar «blog comments» y además discutirlos, ampliarlos y contextualizarlos, para luego armar una buena obra con todo este material?
A esta información dispersa presente en un gran número de sitios web (foros, bitácoras, redes sociales, etc.), no se le está dando la importancia que tiene, excepto evidentemente cuando se trata de sitios comerciales. ¿No deberíamos todos empezar a colaborar en la gestión de la información que voluntariamente hemos aportado en este y en otros sitios web, antes de que se haga inmanejable?
#010
Iñigo Gonzalez - 20 octubre 2011 - 19:03
En mi opinión lo más interesante de Big Data es que aparece como una solución a problemas de manejo de datos (como mostrar anuncios relevantes en la web) que no es posible llevar a cabo con gestores de bases de datos convencionales… a un coste razonable.
Los vendedores de bases de datos llevan tiempo aplicando unas políticas de precios claramente abusivas (cobrando por sockets en el servidor, por core de CPU, por máquina virtual, y por máquina física) que hacen inviable que una startup (como fue en su momento google, facebook, o twitter) pueda comprar sus productos.
Una misma aplicación se puede utilizar desarrollar incorporando la misma funcionalidad sobre Hadoop/Sofa/MongoDB/Vertica/Infobright o una instalación de Oracle/Sybase/MsSQL Server; sin embargo el coste de adquirir y mantener esa infraestructura informática es mucho menor en instalaciones como las primeras.
A día de hoy la información, sobre todo la almacenada masivamente, tiene gran valor para cualquier empresa; pero los gestores de bases de datos son commodities, como lo fueron antes los servidores que están en el datacenter, y los sistemas operativos, y algunas aplicaciones (como los servidores web, etc…).
#011
David - 21 octubre 2011 - 00:19
http://ksat.me/map-reduce-a-really-simple-introduction-kloudo/
#012
charli_htp - 22 octubre 2011 - 18:43
HP compró Autonomy por 10.300 millones de dólares (casi nada oiga) para competir en este mercado con Oracle y compañía.
El tratamiento de datos no estructurados es el futuro, sin duda.
#013
Belén - 24 octubre 2011 - 00:10
El otro día una empresa competencia de Oracle en este tema me enseñó sus herramientas para gestionar el big data propio y el adquirido de sitios externos (ej. Facebook) que, aunque tenía buena pinta, seguía pareciendo demasiado poco procesado, en el sentido de que hace falta mucho análisis para sacar conclusiones rápidas y las interfaces aún son un segundo nivel de demasiada información. Comparado con desarrollos propios, más hechos a medida, creo que las soluciones pret-à-porter de las empresas que citas son insuficientes cuando se alcanzan volúmenes grandes, y para empresas más pequeñas, start ups etc. tendrán pereza y pocos recursos… pero en cualquier caso, es cierto, esas palabras y la muy 2011ava «infoxicación» cada día se oyen más
#014
Jose - 6 noviembre 2011 - 00:18
Excelente artículo como introducción a un concepto que está ahora mismo en plena ebullición, pero creo que habría que puntualizar algunos conceptos.
Oracle no está especialmente bien posicionada en el tema, Exadata no es un producto enfocado al concepto Big Data, si no a la provisión de software e infraestructura sobre productos Oracle. En este sentido, les ha sido enormemente útil la adquisición de Sun, puesto que sus plataformas hardware han servido para desarrollar un concepto inicialmente concebido u orientado en otras plataformas. Ciertamente Oracle es consciente de que la tendencia va hacia los conceptos de Big Data y se está orientado hacia ellos, pero no era hasta ahora el foco de su negocio (ese es el motivo de la adquisición de Endeca). Lo mismo sucede con conceptos como el Cloud, en los que la orientación de su negocio, parece dejarle al margen, y que deben retomar para no quedarse fuera.
MapReduce, Google File System y NoSQL, no son realmente herramientas de Google. MapReduce es un concepto que cualquier estudiante de informática conoce y está asociado a la programación funcional, Google lo utilizó como principio para la ejecución de algoritmos de forma masivamente paralela. GFS es el sistema de ficheros propietario y utilizado como base de Google, pero no está liberado, en este se ha reutilizado el concepto para la implementación de FS libres como HDFS. Del mismo modo, NoSQL es un concepto ajeno a Google, aunque está utilizado para el principio de las bases de datos no estructuradas, como Big Table, la implementación inicial de Google, que fue posteriormente implementada en desarrollos no propietarios como HBase o Cassandra (implementada y liberada por Facebook).
Creo que tampoco es realista el comentario acerca de “Si tu empresa no tiene un problema con la analítica de datos, es simplemente porque no está donde tiene que estar o no sabe cómo obtener información del entorno”. En los volúmenes que maneja este tipo de base de datos hay pocas empresas en las que pueda ser realmente crítico. Por supuesto puede ser útil, y una alternativa por todo lo que dan estos desarrollos al margen de la analítica (tolerancia a fallos, redundancia, alta disponibilidad, procesamiento paralelo, …), pero no creo que sea realmente útil frente a soluciones tradicionales en la mayor parte de las compañías.
Hay que ver cómo evolucionan estas soluciones, pero es cierto que el futuro se presenta realmente apasionante. Tengo curiosidad también por ver el posicionamiento de Oracle o Microsoft. También es interesante, y posiblemente podría ser motivo de un post dedicado, lo que Google (o Facebook) puede sacar (o hubiera podido sacar) del concepto original. Si en lugar de publicar las ideas y los conceptos, hubiera optado por licenciarlos. Creo que es interesante valorarlo, porque determina en gran medida lo que es Google como empresa, frente a otras como Oracle, que sin duda hubieran aprovechado la ventaja de inventar este concepto y cerrarlo para su propio beneficio. El hecho de que no lo hicieran, es lo que les hace ahora ir retrasados y sin la ventaja de un producto competitivo. Sin duda lo serán en muy breve plazo, pero ahora mismo están a la zaga de soluciones abiertas y algo que también hace apasionante el momento respecto a Big Data.
#015
Pask - 4 enero 2012 - 15:45
Los elefantes son lentos. TCO
Hay un player de nicho del que no se habla pero que esta desplegando arquitecturas capaces de indexar Tb diarios y sobre todo generar reports, alertas, etc. Se trata de Splunk.
Utilizando MapReduce es capaz de escalar horizontalmente y sobre todo tiene un reporting, drill-down no visto en otras soluciones, contando con un tiempo de despliegue de proyecto(*) que es ordenes de magnitud menor que hadoop.
Saludos
(*) Entendiendo como proyecto tener una arquitectura capaz de dar visibilidad a los datos vengan de donde vengan.