De los datos a la inteligencia artificial

Un artículo sobre los avances de Facebook en el reconocimiento de imágenes, que le permite ya establecer sistemas de búsqueda en función del contenido que aparece en ellas, me lleva a reflexionar sobre la importancia de la disponibilidad de datos de cara al desarrollo de algoritmos de machine learning e inteligencia artificial: a nadie se le escapa que la capacidad de Facebook para desarrollar estos sistemas de procesamiento y reconocimiento de patrones en imágenes tiene que ver ni más ni menos que con sus posibilidades de acceder a decenas de millones de imágenes etiquetadas y comentadas de sus usuarios en la propia red de Facebook y en la de Instagram.

A la hora de pensar en las posibilidades de la inteligencia artificial para nuestro negocio, tenemos que comenzar por las posibilidades de que disponemos para obtener datos que analizar. Datos que, además, no son todos creados iguales: no se trata solo de que el archivo en papel no vaya a servirnos de nada, sino que además, necesitamos formatos y herramientas suficientemente abiertos como para permitir su procesamiento, algo que no siempre es sencillo cuando hablamos de compañías que, durante mucho tiempo, procesaron sus datos en sistemas legacy de difícil integración.

El hecho de provenir de una etapa en la que muchas industrias se han preocupado de ponerse al día en temas relacionados con el llamado big data facilita en cierta medida esa tarea: cuando ya tienes data scientists en plantilla, lo mínimo que cabe esperar es que hayan llevado a cabo la limpieza y catalogación de las fuentes de datos con las que pretenden contar en sus analíticas y visualizaciones. Pero tras el big data, llega el siguiente paso: la inteligencia artificial. De hecho, los progresos en inteligencia artificial están llevando a los data scientists a darse cuenta de que necesitan evolucionar hacia esa disciplina, o ser considerados profesionales obsoletos.

Los datos son la auténtica gasolina que mueve la inteligencia artificial. La disponibilidad de datos nos permite desarrollar los mejores algoritmos, y sobre todo, mejorarlos a lo largo del tiempo para que vayan produciendo mejores resultados y se adapten a condiciones cambiantes. La disponibilidad de cada vez más datos en conducción autónoma a medida que sus flotas hacen más y más kilómetros es lo que permite a Tesla reducir el número de disengagements, episodios en los que el conductor se ve obligado a tomar el control, hasta los niveles actuales: tan solo entre octubre y noviembre del pasado 2016, cuatro vehículos autónomos de la compañía recorrieron 885 km en carreteras californianas, y experimentaron 182 de esos momentos, en lo que representa un punto de partida a partir del cual seguir mejorando con la experiencia acumulada. De hecho, Waymo, que cuenta con los datos acumulados por todos los experimentos en conducción autónoma de Google, consiguió a lo largo del año 2016 hacer descender el número de esos disengagements desde los 0.8 por cada mil millas, hasta los 0.2, en lo que supone una progresión impresionante alimentada, de nuevo, por la disponibilidad de datos que procesar.

El verdadero error en inteligencia artificial es pretender juzgar un algoritmo por sus resultados en el momento en que lo obtenemos, sin tener en cuenta los progresos que puede alcanzar a medida que dispone de más y mejores datos. Escribir una crítica sobre el Echo de Amazon diciendo que es poco menos que un despertador con radio un poco ilustrado es una actitud que olvida lo fundamental: que con ocho millones de dispositivos en el mercado, las posibilidades que Amazon tiene de ir mejorando la inteligencia de Echo son prácticamente ilimitadas, y que eso significa que cada vez nos entenderá mejor, que irá reduciendo progresivamente sus errores y que se convertirá, sin duda, en un aparato que terminaremos planteándonos cómo podíamos vivir sin él.

¿En qué deporte pueden plantearse primero la llegada de árbitros basados en inteligencia artificial? Por supuesto, en el fútbol americano, el ejemplo clásico de deporte en el que todo está cuantificado, analizado y procesado hasta el límite. ¿Qué compañías de seguros serán capaces primero de acceder a los ahorros y las mejoras de la peritación basada en inteligencia artificial? Aquellas que dispongan de grandes cantidades de datos correctamente almacenados y estructurados para poder procesarlos y entrenar con ellos a la máquina. ¿Qué instituciones académicas serán las primeras en extraer partido de la inteligencia artificial en el proceso educativo? Las que dispongan de archivos completos, correctamente estructurados y preparados para su tratamiento. Y puedo asegurar que eso, que parece tan básico, no lo tienen todas las instituciones que conozco.

Entender la evolución de los datos al machine learning y a la inteligencia artificial es, para cualquier directivo, cada vez más importante, y para una compañía, cada vez más estratégico. Es así como se decidirá qué compañías terminan a qué lado del nuevo digital divide.

This post is also available in English in my Medium page, “From data to artificial intelligence«

#001
Daniel Terán - 5 febrero 2017 - 16:34
Big Data siempre me pareció, y me sigue pareciendo, un concepto vacío en sí mismo. Muchos datos, ok, ¿y para qué? Ahora ya se les empieza a sacar partido.
#002
Krigan - 5 febrero 2017 - 17:26
Desde luego, el desarrollo del Google Car está siendo impresionante. En el 2015 los conductores de seguridad de Google necesitaron tomar los mandos una vez cada 2.000 Km, en el 2016 fue cada 8.000 Km.
Sorprende lo atrasada que va Tesla, que sus coches no alcanzan ni los 5 Km sin que el conductor tome el mando. Le va a costar años alcanzar el nivel que tiene Google ahora.
Y claro, ahora se explica que Uber no quisiera hacer sus pruebas en California, donde existe la obligación legal de comunicarle los resultados a las autoridades, resultados que estas publican anualmente.
- jose javier - 6 febrero 2017 - 20:51
  Apuesto a que el mapeo de google con su cochecito haciendo fotos ha ayudado mucho a recopilar datos. Ademas, no se me ocurre mejor manera de enseñar que subirse al lado de alguien que conduzca bien
#004
Gorki - 5 febrero 2017 - 18:07
¿Qué compañías de seguros serán capaces primero de acceder a los ahorros y las mejoras de la peritación basada en inteligencia artificial?
La experiencia me dice que ser el primero, no es la mejor estrategia. Lo importante es ser el tercero, cuando el avance está consolidado y aun la masa de la competencia no ha llegado. El primero corre muchos riesgos, hace de «conejo de indias», Quien ganó dinero en el espacio, ¿La URRS siendo el pionero del Spuknik y el que primero colocó un objeto en la Luna, USA que se aprovechaba de los aciertos y fracasos del pionero y llegó a poner hombres en la luna, o las empresas de telecomunicaciones que enviaron satélites de comunicaciones cundo ya se había transformado en rutina poner un satélite en órbita?
Ahora hasta Hispasat es rentable. http://economia.elpais.com/economia/2016/02/15/actualidad/1455565598_138562.html
#005
JOSÉ ANTONIO GAES - 5 febrero 2017 - 18:34
¿ Estas diciendo que Tesla necesita 330 «desenganches» cada mil millas y que Google ha pasado de 0,8 a 0,2 en el último año ?
- Jos - 6 febrero 2017 - 00:28
  Son datos oficiales de los propios fabricantes.
  Lo de Tesla y Google es muy interesante, Tesla con una autonomía que a duras penas llega a nivel 2 inunda internet de vídeos publicitarios. Google hizo el primer trayecto con un nivel 5 en 2015 y nos enteramos un año después.
- Rafa Gonzalez - 6 febrero 2017 - 16:49
  Aquí, los de Forbes comparan ambas métricas: http://www.forbes.com/sites/alanohnsman/2017/02/01/tesla-has-little-to-show-in-californias-tally-of-autonomous-car-test-data/#1bac71a030d7
  - JOSÉ ANTONIO GAES - 6 febrero 2017 - 20:23
    Gracias Rafa.
    Muy interesante los que están y no están.
#009
Gorki - 5 febrero 2017 - 22:13
Lo he encontrado por un RT de mi Twitter Yo no se quien es Jaime Lopez Francos pero opino igual que él
Jaime Lopez Francos ‏@LopezFrancos 17 hHace 17 horas
Adelantarse a una tendencia puede ser tan malo como no llegar. Anticipar lo q viene es clave, pero implementar cuando toca lo es más
- Daniel Terán - 6 febrero 2017 - 17:03
  Claro, como si fuera tan fácil. No solo hay que acertar con una(s) de las decenas de tendencias que pululan por ahí fuera, como también hacerlo con el timing adecuado. A toro pasado todo es más sencillo de analizar.
#011
DANN ELIO - 5 febrero 2017 - 22:53
Todos hemos escuchado alguna vez el aforismo: «Una imagen vale más que 1.000 palabras». Pues si eso fuese una saga, éste sólo sería el primer libro de la colección. Todo apunta a que la siguiente máxima va a ser: «¿Cuánto vale una imagen CON mil palabras?» Una imagen «alimentada» con mil palabras asociadas como etiquetas y como metadatos. Y si no son mil, que son 5.000 imágenes…Y si la realimentamos indefinidamente con imágenes sinfín: Eso ya no es una simple imagen, eso ya es una imagen con esteroides, y con muchas horas de gimnasio acumuladas :-) :-) :-) Las posibilidades de esas imágenes potenciadas son brutales, inagotables:
– Búsquedas dentro de los buscadores web
http://www.pcactual.com/noticias/actualidad/realiza-busquedas-google-partir-imagen-2_11483
( esta fiesta ya empezó en el 2013, y la promovió Google, aunque con un éxito muy discreto: A partir de ahora que nos las vamos a encontrar reconocidas en nuestro Facebook, Instagram..etc, esto va a despertar, a buen seguro, muchísimo más interés entre la mayoría de nosotros :-)
– Reconocimientos faciales de caras, sonrisas, expresiones, etc, en las fotos de nuestros dispositivos..
– Asistencia para personas que aunque no puedan ver con sus ojos biológicos podrán «escuchar» lo que contienen y lo que son las imágenes que les rodean ( tanto si las fuentes son imágenes estáticas como si son vídeos captados al momento..)
– Si esto nos es útil cuando, por el motivo que sea, no podemos ver de forma natural y directa, para cuando tenemos nuestros discos duros llenos ya de cientos, o puede que miles ;-), de fotografías acumuladas a lo largo de los años, tanto las que hemos realizado de forma directa con nuestras cámaras como las que hemos descargado de la nube, o las recibidas a través de las redes sociales de nuestros familiares y amigos…A los que podemos ver, también nos sirve para localizar y organizar mejor, cuando tenemos muchos archivos. Que todo eso, llegue un algoritmo bien entrenado, y que pueda clasificar automáticamente todas esas fotos en base a temas, fechas, colores, objetos que aparecen en ellas…es de una utilidad tremenda.
Por ejemplo, encontrar esa foto, que te mandaron tus amigos, de sus vacaciones en Australia, en el 2009…pues sería un poco complicado localizarla ¿qué nombre tenía ese .JPG ? ¿Y si se guardó en PNG? ¿fueron las vacaciones del 2009, o nos engaña la memoria «humana» y fueron fotos del 2008? Con machine learning motorizando la AI, localizar esa foto «exacta» va a ser mucho más fácil, cuanto más datos alimenten el sistema.
– En los coches: tanto semiasistidos como autónomos, me imagino que si aplican estas tecnologías a sus sensores, van a poder ver, reconocer, y anticipar todo lo que tienen a su alrededor, mucho mejor que nosotros mismos.
#012
Alejo Rodríguez - 6 febrero 2017 - 11:50
Completamente de acuerdo, sin datos masivos correctamente etiquetados y clasificados, no hay algoritmo de AI que pueda ser entrenado.
Siempre me gusta elucubrar acerca de lo que sucedería en España. En cuanto a las instituciones, sin cambio de gobierno o sin políticas más orientadas a la participación, lo veo difícil -tenemos una sede electrónica institucional que todavía es tediosa y con una tecnología web mejorable-.
En lo relativo a empresas grandes, supongo que sí estarán al tanto del big data y del hecho de que la información es poder. En cuanto al ecosistema startup español -que tengo entendido que estás en constante relación con él-, ¿cómo lo ves?
Mi sensación es que en España tenemos personal más que cualificado, pero poco caldo de cultivo para poner en práctica medidas innovadoras y, en general, cierto desasosiego que imposibilita la innovación real y rentable.
#013
Cristina - 6 febrero 2017 - 13:58
A ver si me acerco más a la utilidad de la I.A en este caso aplicada a la educación. :-) Más allá de las preguntas y respuestas, he aprendido que la posibilidad de generar escenarios para los alumnos, les permite ser mas creativos y no estar condicionados a responder lo que el docente espera de ellos. Como conclusión, design thinking me pareció lo mas acertado y las métricas para evaluar el aprendizaje comitiva, un reto. ;-) Cómo me ayuda la interpretación de datos transformada en un resultado que me permita avanzar en mi proyecto? la interpretacion orientada de los datos, para construir nuevas métricas mejoradas? la progresión/proyección del escenario propuesto por el alumno? (Esto seria simular..)