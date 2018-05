Facebook comenta, en una de las conferencias de su F8, cómo utiliza las etiquetas en los varios miles de millones de fotografías que los usuarios suben a Instagram, para entrenar a sus algoritmos de reconocimiento de imágenes, y cómo eso le ha permitido mejorar los estándares de la industria en este sentido y que sus algoritmos sean capaces de alcanzar una fiabilidad del 85.4%

La idea de Facebook de utilizar las imágenes subidas y etiquetadas por sus usuarios para entrenar algoritmos de reconocimiento ya había sido puesta en práctica anteriormente por Google, que utiliza los vídeos etiquetados de YouTube también de manera sistemática para exactamente lo mismo: a la hora de explicar a un algoritmo en qué consisten verbos como abrazarse, pelearse o cocinar, por ejemplo, pocas cosas pueden ser más explicativas que un vídeo etiquetado con esas palabras. El sistema, obviamente, no es perfecto, pero los errores cuando hablamos de etiquetado de una fotografía o vídeo llevado a cabo por el usuario que lo ha subido son más bien escasos, porque por norma general, el etiquetado tiene como misión facilitar una mejor localización del contenido.

Quien tiene un conjunto de datos etiquetados de manera razonablemente fiable tiene un tesoro, porque puede utilizarlos para entrenar a un algoritmo y conseguir que una máquina sea capaz de entender el significado de lo que hay en esos datos. Recientemente comenté el caso de Qure.ai, una compañía con la que entré en contacto a través de Netexplo, que recopilaba archivos de radiólogos y otros profesionales médicos que trabajaban con imágenes (escáneres, tomografías, etc.) y que solían guardarlos etiquetados con el diagnóstico correspondiente. Eso permitía, alimentando al correspondiente algoritmo, desarrollar un sistema capaz de diagnosticar tumores a partir de imágenes médicas, algo que hoy es preciso llevar a cabo de manera manual y que, obviamente, no está exento de error. Con el tiempo, la predicción de la compañía era que, a medida que la fiabilidad del algoritmo se incrementaba, los médicos muy probablemente dejarían de querer diagnosticar esas imágenes manualmente por miedo a pasar por alto determinados patrones que la máquina sí podía reconocer, algo que eventualmente, a lo largo del tiempo, podría determinar que esa habilidad se perdiese.

Cada vez está más clara la importancia de que las compañías de todo tipo sean conscientes de estas cuestiones. La clave ya no está en contar con los mejores profesionales, sino en el hecho de que tu actividad te permita generar datos estructurados que puedan ser utilizados para entrenar a los correspondientes algoritmos. Da igual lo que hagas, plantéatelo: ¿cómo podrías hacer que el día a día, la operativa de tu compañía sea capaz de generar ese repositorio de datos correctamente etiquetados que puedan ser suministrados a un algoritmo para su aprendizaje? ¿Qué podríamos llegar a hacer si un algoritmo consigue un nivel de fiabilidad elevada en ese sentido?

Como en todo, la cuestión es más de mentalidad que de otra cosa. Entender el problema permite llegar antes no solo a una definición de objetivos razonables, sino también a una identificación más rápida de problemas potenciales que permita trabajar en su resolución. A la hora de imaginar qué tareas puede llegar a hacer un algoritmo, la mayor parte de los directivos se encuentran con limitaciones de planteamiento: ven una gran cantidad de sus procesos como intrínsecamente humanos, y son incapaces de imaginar que determinadas habilidades para las que hoy se requiere una persona puedan llegar a ser dominadas por una máquina. Obviamente, los algoritmos no van a hacerlo todo, o al menos no de la noche a la mañana: los proyectos de machine learning precisan de una primera fase sumamente compleja y dura en la que que hay de definir objetivos concretos, recolectar datos, transformarlos y suplementarlos con más datos adicionales antes de poder pasar a armar modelos y hacer predicciones o diagnósticos que puedan ser evaluados… pero a pesar de la dificultad de esos proyectos, una cosa está clara: los datos son la auténtica barrera de entrada, la clave de la cuestión, lo que va a diferenciar a las compañías capaces de avanzar en ese sentido de aquellas que no lo consigan.

Orientar la actividad de una compañía a la generación de datos analizables no es algo que requiera un enorme esfuerzo ni cambios radicales: simplemente requiere entender los objetivos y atacar el problema de la manera adecuada. Empezar pronto, en cambio, es una garantía de, cuando menos, tener hechos los deberes para lo que pueda venir. Los datos como auténtica ventaja competitiva. Las compañías tecnológicas hace tiempo que lo tienen claro. ¿Qué puedes hacer tú en la tuya?