Las etiquetas como tesoro

Facebook comenta, en una de las conferencias de su F8, cómo utiliza las etiquetas en los varios miles de millones de fotografías que los usuarios suben a Instagram, para entrenar a sus algoritmos de reconocimiento de imágenes, y cómo eso le ha permitido mejorar los estándares de la industria en este sentido y que sus algoritmos sean capaces de alcanzar una fiabilidad del 85.4%

La idea de Facebook de utilizar las imágenes subidas y etiquetadas por sus usuarios para entrenar algoritmos de reconocimiento ya había sido puesta en práctica anteriormente por Google, que utiliza los vídeos etiquetados de YouTube también de manera sistemática para exactamente lo mismo: a la hora de explicar a un algoritmo en qué consisten verbos como abrazarse, pelearse o cocinar, por ejemplo, pocas cosas pueden ser más explicativas que un vídeo etiquetado con esas palabras. El sistema, obviamente, no es perfecto, pero los errores cuando hablamos de etiquetado de una fotografía o vídeo llevado a cabo por el usuario que lo ha subido son más bien escasos, porque por norma general, el etiquetado tiene como misión facilitar una mejor localización del contenido.

Quien tiene un conjunto de datos etiquetados de manera razonablemente fiable tiene un tesoro, porque puede utilizarlos para entrenar a un algoritmo y conseguir que una máquina sea capaz de entender el significado de lo que hay en esos datos. Recientemente comenté el caso de Qure.ai, una compañía con la que entré en contacto a través de Netexplo, que recopilaba archivos de radiólogos y otros profesionales médicos que trabajaban con imágenes (escáneres, tomografías, etc.) y que solían guardarlos etiquetados con el diagnóstico correspondiente. Eso permitía, alimentando al correspondiente algoritmo, desarrollar un sistema capaz de diagnosticar tumores a partir de imágenes médicas, algo que hoy es preciso llevar a cabo de manera manual y que, obviamente, no está exento de error. Con el tiempo, la predicción de la compañía era que, a medida que la fiabilidad del algoritmo se incrementaba, los médicos muy probablemente dejarían de querer diagnosticar esas imágenes manualmente por miedo a pasar por alto determinados patrones que la máquina sí podía reconocer, algo que eventualmente, a lo largo del tiempo, podría determinar que esa habilidad se perdiese.

Cada vez está más clara la importancia de que las compañías de todo tipo sean conscientes de estas cuestiones. La clave ya no está en contar con los mejores profesionales, sino en el hecho de que tu actividad te permita generar datos estructurados que puedan ser utilizados para entrenar a los correspondientes algoritmos. Da igual lo que hagas, plantéatelo: ¿cómo podrías hacer que el día a día, la operativa de tu compañía sea capaz de generar ese repositorio de datos correctamente etiquetados que puedan ser suministrados a un algoritmo para su aprendizaje? ¿Qué podríamos llegar a hacer si un algoritmo consigue un nivel de fiabilidad elevada en ese sentido?

Como en todo, la cuestión es más de mentalidad que de otra cosa. Entender el problema permite llegar antes no solo a una definición de objetivos razonables, sino también a una identificación más rápida de problemas potenciales que permita trabajar en su resolución. A la hora de imaginar qué tareas puede llegar a hacer un algoritmo, la mayor parte de los directivos se encuentran con limitaciones de planteamiento: ven una gran cantidad de sus procesos como intrínsecamente humanos, y son incapaces de imaginar que determinadas habilidades para las que hoy se requiere una persona puedan llegar a ser dominadas por una máquina. Obviamente, los algoritmos no van a hacerlo todo, o al menos no de la noche a la mañana: los proyectos de machine learning precisan de una primera fase sumamente compleja y dura en la que que hay de definir objetivos concretos, recolectar datos, transformarlos y suplementarlos con más datos adicionales antes de poder pasar a armar modelos y hacer predicciones o diagnósticos que puedan ser evaluados… pero a pesar de la dificultad de esos proyectos, una cosa está clara: los datos son la auténtica barrera de entrada, la clave de la cuestión, lo que va a diferenciar a las compañías capaces de avanzar en ese sentido de aquellas que no lo consigan.

Orientar la actividad de una compañía a la generación de datos analizables no es algo que requiera un enorme esfuerzo ni cambios radicales: simplemente requiere entender los objetivos y atacar el problema de la manera adecuada. Empezar pronto, en cambio, es una garantía de, cuando menos, tener hechos los deberes para lo que pueda venir. Los datos como auténtica ventaja competitiva. Las compañías tecnológicas hace tiempo que lo tienen claro. ¿Qué puedes hacer tú en la tuya?

This article was also published in English at Forbes, “Tags are treasure»

#001
Gorki - 3 mayo 2018 - 12:59
Tienes toda la razón. Pensamos que el autoapredizage de la IA no precisa mano de obra y lo cierto es que previamente hay que elaborar los datos precisos para el adiestramiento y un trabajo muy tedioso caro es el etiquetando, que lleva muchísimo esfuerzo humano, que Google. Facebook y otros, se encuentran hecho.
- Krigan - 3 mayo 2018 - 23:19
  No siempre es así. AlphaGo sí que se entrenó con partidas jugadas previamente por humanos, pero AlphaGo Zero aprendió exclusivamente a base de jugar millones de partidas contra sí mismo, y acabó jugando mejor que cualquier humano y que cualquier versión de AlphaGo entrenada con partidas humanas.
  La clave está en si se puede decidir si un resultado ha sido un acierto o un error sin que intervenga directa o indirectamente un humano. Aquí hay 2 demostraciones prácticas con pequeños robots:
  http://wp.doc.ic.ac.uk/sml/project/autonomous-learning-for-control-and-robotics/
  - Asier - 4 mayo 2018 - 10:32
    Exacto, de hecho no es difícil imaginar una IA algo más avanzada que las actuales que aprenda a identificar situaciones/objetos (y etiquetarlos) por sí misma partiendo de cero, viendo miles de horas de vídeos (la máquina lo haría en segundos) acerca del mundo real, donde identifique situaciones y objetos asociando el audio con el vídeo. Podría empezar con vídeos educativos tipo Barrio Sésamo para sentar unas bases y luego seguir con vídeos más caóticos grabados en diferentes situaciones de la vida real. Igual que aprende un niño.
    Fantásticos los vídeos del enlace, sobre todo el segundo. Supone un salto conceptual revolucionario en la programación de autómatas: si antes querías que la máquina hiciera una tarea la tenías que programar al detalle especificando un mecanismo concreto pero ahora le marcas un objetivo y aprende sola, adaptándose incluso a cambios que pudieran aparecer en el entorno (sin tener que reprogramarla).
    - Krigan - 4 mayo 2018 - 12:52
      Sí, a mí también me encantó especialmente el segundo vídeo, incluidos los segundos finales en los que el robotito es capaz de hacer frente a 2 pequeños cambios en las condiciones del medio (2 toquecitos) que no estaban en su entrenamiento inicial.
      También está la posibilidad de entrenar en simulación. De hecho, los coches de Google (su soft) han recorrido muchos más Km en simulador que en la vida real.
      En el caso concreto de Google Car (aka Waymo) no he encontrado información de que parte de sus entrenamientos en simulador hayan sido mediante aprendizaje autónomo, al estilo de estos vídeos, pero sí que hay otros investigadores que lo están haciendo, incluidos los de DeepMind (que también es de Google).
      Unos robots virtuales de DeepMind aprendieron por sí mismos a caminar y superar obstáculos en simulador:
      https://youtu.be/gn4nRCC9TwQ
      Se han creado también diversas plataformas de desarrollo de IA para robots en simulador:
      https://www.nvidia.com/en-us/deep-learning-ai/industries/robotics/
    - Gorki - 4 mayo 2018 - 13:47
      Podría empezar con vídeos educativos tipo Barrio Sésamo para sentar unas bases y luego seguir con vídeos más caóticos grabados en diferentes situaciones de la vida real. Igual que aprende un niño.
      ¿Alguien tendrá qe seleccionar los videos y el orden para que la IA aprenda?- Pues cuando el material a seleccionar se eleva a cientos de miles de datos, suponen un buen trabajo. Si por ejemplo encuentras un organismo de esseñanza que te lo da a seleccionado y ordenado como puede ser lUNICEF te ahorras un gigantesco esfuerzo, Exactamente igual que lo que hacen ¡ Google Facebook aprovechando el etiquetado de los p¡articulares.
      Por mas imágenes que pongas a un IA si en alfgun lugar no asocias una imagen a un concepto, como «puente», «casa» o «perro» nuenca tendra la forma de «aprender» que es lo que identifica una casa y lo que la diferencia de un perro.
      Pensar que la IA aprende como un niño es un error porque la IA no tiene noción del contexto y el niño si.
      «Aprender» es una potente palabra maleta ya que puede referirse a muchos tipos diferentes de experiencia. Aprender a usar los palillos chinos es una experiencia muy diferente de aprender la melodía de una nueva canción. ….
      ….. El aprendizaje automático actual no es en absoluto el aprendizaje esponjoso típico de los seres humanos, con el que hacen rápidos progresos en un nuevo dominio sin tener que ser alterados quirúrgicamente o construidos a propósito.
      https://www.technologyreview.es/s/9655/los-siete-grandes-errores-de-quienes-predicen-el-futuro-de-la-inteligencia-artificial
      - Krigan - 4 mayo 2018 - 15:44
        Aunque la selección de vídeos supone algo de intervención humana, no es lo mismo que el etiquetado. Ni tampoco es lo mismo porque los vídeos seleccionados hayan sido hechos por humanos con fines educativos.
        Pongamos que la selección hecha consiste precisamente en la colección completa de vídeos de Barrio Sésamo.
        No es lo mismo eso que si mil usuarios de Instagram etiquetan otras tantas fotos con la palabra «tigre», y la mejor demostración es precisamente que con las fotos etiquetadas Facebook ya ha conseguido una importante mejora, mientras que nadie ha conseguido ninguna mejora con Barrio Sésamo.
        Nótese que Asier señaló que eso sería para una IA más avanzada que las actuales. Además, hay otras diferencias de orden práctico. Solo Facebook y unas pocas empresas más tienen un repertorio tan amplio de fotos etiquetadas, mientras que cualquiera puede tener la colección completa de Barrio Sésamo. La gente etiquetó las fotos porque quiso, y siguiendo los criterios que quiso, mientras que Barrio Sésamo fue hecho de principio a fin con fines educativos.
        A día de hoy, lo que se usa es cosas tales como el etiquetado, el entrenamiento en simulador, y el aprendizaje autónomo tanto en el mundo físico como en simulador.
        El caso es que estamos pasando a otras formas de programación muy diferentes de la laboriosa programación tradicional en la cual se escribe una muy larga serie de instrucciones muy precisas, rutinas que además es muy trabajoso el depurarlas.
        El etiquetado es algo que ya estaba ahí, lo hicieron los usuarios. El aprendizaje autónomo no lo usa. Los simuladores permiten acelerar el entrenamiento, y se ha llegado a usar motores de videojuegos que ya existían previamente. En el futuro tal vez se usen vídeos educativos, e incluso otros vídeos que no lo son.
        El ejército de programadores desaparece, y en su lugar se usan otras cosas que algunas de ellas requieren una importante labor humana previa (no siempre retribuida) y otras no.
#007
JJ - 3 mayo 2018 - 16:15
«…para entrenar a sus algoritmos de reconocimiento de imágenes, y cómo eso le ha permitido mejorar los estándares de la industria en este sentido y que sus algoritmos sean capaces de alcanzar una fiabilidad del 85.4%…»
De verdad aciertan tanto sus algoritmos? Tan buenos son?
También afirman, por ejemplo, tener más de 2000 millones de usuarios, pero otra cosa es demostrarlo.
Facebook censura la Venus de Willendorf, escultura de mas de 30 mil años
- Gorki - 3 mayo 2018 - 17:00
  Según dicen ellos, no son 2000 millones, sino 2200 millones, lo que no está probado.
  Lo que si está probado es que en un trimestre tuvo ingresos de 11.970 millones, un 49% más que el año.anterior , lo que le produjo un beneficio de 4.990 millones de dólares, un 63% más que hace un año.
  https://elpais.com/economia/2018/04/25/actualidad/1524673291_111141.html
#009
JJ - 3 mayo 2018 - 20:02
Facebook lost daily users for the first time ever in the US and Canada
En Internet se puede mentir mucho, mientras nadie sepa cómo separar mentiras interesadas de verdad… Demostrar las mentiras, por grandes que sean, puede ser difícil. Así y todo hay cosas que no se pueden ocultar. Como cuando se desveló el caso de Second Life.
- Gorki - 3 mayo 2018 - 22:20
  Se puede mentir mucho, pero cuando se es una Sociedad Anónima que cotiza en la Bolsa de Nueva York, No puedes mentir sobre tu nivel de facturación y de beneficios.
  - JJ - 3 mayo 2018 - 22:57
    Bueno, tarotista, no debería responderte. Me has llamado ‘ser adulterado’ y ni te has disculpado ni tampoco explicado. Pero insistes en dirigirte a mi.
    No estoy de acuerdo con lo que dices. Las empresas pueden engañar por lo menos en dos sentidos; pueden mentir diciendo que han ganado mucho menos de lo real para pagar menos impuestos. O pueden mentir diciendo que han ganado mucho más para crear optimismo en los inversores y que las acciones suban. Dependiendo de las necesidades del momento.
    Contabilidad creativa
    - Gorki - 4 mayo 2018 - 00:29
      No tienes ni idea de las obligaciones y controles que tienen las empresas que cotizan en Bolsa
#013
Xaquin - 3 mayo 2018 - 20:37
No veo tan raro que la colección de datos sea un tesoro. Los que coleccionaban fichas de libros o de personas tenían un tesoro y bien que lo usaban. El avance tecnológico multiplica los datos, no la calidad del tesoro (en datos).
La diferencia real ahora es que se pueden hackear mejor los datos virtuales que miles de tarjetas manuscritas. Pienso que la gente que no sabe de física cuántica no pude entender (¿intuir?) el farragoso futuro que nos espera en este movimiento browniano de datos.
Y puede que no esté demás acercarse a esa serie que se llama Startup. Cada vez más las series de TV y los vídeos de Youtube son la escuela moderna de la humanidad.
#014
menestro - 4 mayo 2018 - 07:12
Os dejo aquí un comentario del año pasado, donde explico el asunto de la etiquetas. Para que quede más claro, si tenéis curiosidad. Que me toca hacer el desayuno.
–
Cuando las máquinas entienden lo que ven
#015
Pedro Trillo - 4 mayo 2018 - 09:10
El etiquetado de los datos, se puede situar al mismo nivel de importancia que la estructuración de los mismos.
Cualquier IA ya sea para texto, audio, imagen o video, no interpreta el dato en si, si no la distancia entre los vectores de las etiquetas.
El tageado de un contenido, ya se considera un modo de estructuración del dato, quizá el más importante para evaluar tu entrada de datos.
Cabe destacar la importancia del volumen del dato, si quieres realizar machine learning a partir de 10.000 muestras ya puedes obtener algún resultado «predictivo», en el caso del deep learning tus datos o muestras deben escalar a como mínimo 100.000.
Por orden de magnitud y volumen de datos, Google o Facebook, directamente están entrenando sistemas de deep learning.