Machine learning y reconocimiento de vídeo: una frontera importante

Image recognition in video (Google)Google anuncia durante su conferencia Google’s Next Cloud que ha desarrollado la capacidad de buscar y localizar objetos en un vídeo, y que la ofrece ahora en forma de una API de Cloud Video Intelligence disponible para desarrolladores, como ha hecho con el resto de sus APIs de machine learning. Junto con el anuncio de la adquisición de la comunidad de desarrollo de competiciones de modelos predictivos y analíticos Kaggle, también por parte de Google, son sin duda las noticias sobre el tema más importantes de la semana.

El anuncio y demostración del reconocimiento de objetos en vídeo, llevado a cabo por la profesora de Stanford y directora de machine learning y AI de Google Cloud, Fei-Fei Li, podría parecer relativamente trivial considerando que ya hace cierto tiempo que nos hemos acostumbrado a buscar por palabras clave en una colección de fotos y obtener resultados que no provengan directamente del etiquetado manual, sino del reconocimiento de los objetos existentes en las imágenes, pero la complejidad implicada en construir esa misma función para vídeo es muy superior, y las posibilidades que abre, para la compañía que posee el mayor repositorios de vídeo del mundo, también lo son.

¿Qué ocurre cuando un algoritmo puede visualizar un vídeo, entenderlo y reconocer los objetos que hay en él? Hasta ahora, un vídeo era un contenedor prácticamente cerrado, en el que las únicas formas que teníamos de localizar algo era mediante su título o etiquetándolo con palabras clave. Desde hace muchos años, esa situación nos parece «lo normal», lo que la tecnología da de sí, una limitación tan asumida, que eran pocas las ocasiones en las que pensábamos en la posibilidad de algo así. El vídeo es uno de los componentes de la web sujeto a un índice de crecimiento mayor, pero por el momento, la capacidad de hacerlo indexable resultaba bastante limitada. ¿Qué ocurre cuando los algoritmos de machine learning son capaces, por un lado, de reconocer las palabras pronunciadas en un vídeo, pasarlas a texto y hacer que podamos buscar en él, y además, otros algoritmos se encargan de entender el contenido y permitir que podamos buscar imágenes? Pedir a un buscador que nos localice menciones o apariciones de algo – un objeto, una marca, un logotipo, una persona, etc. – en un repositorio de vídeo, y obtener una página de resultados en la que se nos indiquen los vídeos que lo contienen, y el lugar del vídeo en el que se encuentra… ¿Cuántas nuevas posibilidades y avenidas para la innovación se pueden abrir gracias a algo así?

Para Google, como para otros competidores en el entorno cloud computing, la forma de competir no es simplemente tratando de ofrecer más prestaciones por menos precio – lo que supondría especializarse en la clásica estrategia de liderazgo en costes – sino ser capaz de ofrecer prestaciones más sofisticadas para sus usuarios. La oferta de una función como esta hace que, de manera automática, la nube de Google, que hasta el momento se percibe como por detrás de otros competidores como Amazon o Microsoft, se convierta en una opción más interesante para aquellos competidores en los que el vídeo juega un papel fundamental, que ahora pueden plantearse mucho más servicios asociados a la puesta en valor de sus repositorios. Pero además, posibilita también el desarrollo de nuevos servicios planteados por otros competidores, que podrían permitir la adopción de modelos de plataforma para aquellos que consideran el vídeo como el centro de su negocio. Hablamos de dinamizar y convertir en indexables muchísimos millones de horas de vídeo, con contenidos de todo tipo, que se abren a la posibilidad de ser tratados de maneras muchísimo más ricas.

Ahora, una máquina puede ver un vídeo de un tigre, entender que es un tigre lo que hay en el vídeo, y encontrarte vídeos en los que aparezcan tigres. Todo ello, sin que nadie haya etiquetado o titulado ese vídeo como conteniendo un tigre. Lo mejor de estudiar el machine learning y la inteligencia artificial es que nunca dejas de sorprenderte.

 

 

This post is also available in English in my Medium page, “Machine learning and video recognition: an important border«

 

16 comentarios

  • #001
    menestro - 9 marzo 2017 - 17:31

    Enrique, solo aclarar, que una cosa es el reconocimiento de patrones, formas y contornos, como hacen los algoritmos de clasificación de imágenes, y otra diferente, el etiquetado de las mismas.

    Para reconocer una forma, se necesita de un procesado de la imagen que supone un elevado coste de computación, por ejemplo, en el caso de las búsquedas de Google no sería asumible, con millones de usuarios realizando esa función.

    Y por ello, los algoritmos de etiquetado y búsqueda siguen utilizando fingerprints, que es más económico y efectivo.

    Así que sí, los algoritmos identifican imágenes por semejanza y similitud. No tienen ni idea de lo que están viendo o lo que les preguntas, sino que asocian los resultados a un criba previa ya realizada.

    Por eso se llama aprendizaje a esa técnica, por que optimiza el procesado de contornos, sombras y regiones de la imagen, para aumentar su capacidad de asociarlas a otra similares.

    Sí, parece magia, sí parece que sabe lo que hay en la foto y que nunca hubiera visto otra similar. Pero no. No hay reconocimiento semántico.

    Cuando utilizas palabras para encontrar imágenes, es que ya han sido clasificadas y etiquetadas, no tienen que comprender nada de lo que aparece en la imagen.

    Es elogiable el entusiasmo de a algunas personas, pero es que no, no tenemos que pensar en que las técnicas de IA son una réplica de la funciones cognitivas de los seres humanos.

    No es una inteligencia autónoma y capaz de conceptualizar o mostrar volición, o conciencia en los procesos que de los que se sirven.

    No es un cerebro electrónico de película.

    Feature Selection in Pattern Recognition

    • Asier - 9 marzo 2017 - 18:48

      ¿Acaso tú no identificas imágenes por «semejanza y similitud»?

      Lo único que vienes a decir es que esas máquinas no son conscientes. ¿Y qué? Si ya están haciendo las cosas (reconocimientos visuales incluidos) mejor que nosotros y sustituyéndonos en un montón de tareas. Yo veo el entusiasmo muy justificado.

      ¿Puedes decir algo que no vayan poder hacer las máquinas en un futuro cercano? Y digo hacer, no sentir o ser conscientes.

      • menestro - 9 marzo 2017 - 19:01

        Sí Asier, pero el debate no es lo que quieres que hagan las maquinas o la iA, sino lo que hace el Cloud Video Intelligence.

        Si tus creencias se refieren al Extropianismo o el Posthumanismo de las maquinas, no es un asunto de tecnología, sino de eso; creencias personales.

        https://es.wikipedia.org/wiki/Posthumanismo

        https://es.wikipedia.org/wiki/Singularitarianismo

        • Krigan - 9 marzo 2017 - 22:15

          Ya, Menestro, pero el caso es que tienes una marcada tendencia a ver creencias mágicas, conciencias, singularidades, y similares por todos lados, cuando resulta que parte de la gente es poco proclive a esas cosas.

          Es algo así como tener la superstición de creer que todos los demás son supersticiosos.

        • menestro - 10 marzo 2017 - 00:41

          No siempre; a veces sacrifico gallinas.

          >:>

          • Krigan - 10 marzo 2017 - 01:07

            Jejeje. Muy bueno el smiley de la gallina, no lo conocía.

          • menestro - 10 marzo 2017 - 11:02

            Tenéis que dejar de convertir los comentarios de un blog en un chat, Krigan. No os molestéis.

          • Krigan - 10 marzo 2017 - 14:49

            ¿Ah, sí? ¿»Tenemos qué «?

            Incluso dejando a un lado que no tenemos por qué seguir tus reglas, si piensas eso, deberías empezar por aplicarte el cuento.

  • #009
    Xaquín - 9 marzo 2017 - 18:16

    Parece que hay ganas de darle la vuelta a la tortilla sin esperar a que se pase por un lado… en fin…
    Me resulta estupenda la frase final (nos lleva al manoseado «que es la inteligencia»)… pero me fastidia en parte, pensando que una de las cosas más típicas del proceso educativo es despreciar todo lo de maravilloso que esconde la inteligencia de una cría humana. Y no digo que no se «estudie» en teoría y práctica de laboratorio, digo que la práctica con las criaturas humanas lleva dando auténtica pena…esperemos que las criaturas robóticas tengan mejor suerte!

  • #010
    Gorki - 9 marzo 2017 - 20:39

    Por mucho que lo diga Google, no me creo lo que cuenta, ¿Por qué en la foto en que aparece el tigre, no me identifica las mil plantas que aparecen alrededor de él?. — Por que el tigre es el protagonista y las plantas son los figurantes de la película, ¿Pero quien define que es el protagonista y quien son los figurantes?

    Como ese caso son todos, en cada fotograma hay cientos de objetos ¿Cuales definir y cuales olvidar? ¿Me es útil algo que solo encuentra elementos que alguien previamente ha definido como importante?.

    Si quiero saber quien manda en los sindicatos, ¿me puede extraer las fotos de los que acuden a toda las manifestaciones? — Lo dudo mucho, porque precisamente los promotores en las manifestaciones se confunden con la plebe y deja que los catetos lleven las pancartas. Lo mismo pasa con los policías infiltrados.

    • Carlos Quintero - 9 marzo 2017 - 21:11

      El título del archivo .mp4 ya da una pista de lo que tiene que identificarse como protagonista en el vídeo. Lo mismo hasta el algoritmo lo tiene en cuenta ;-)

    • Asier - 9 marzo 2017 - 22:45

      Gorki, tal y como lo veo es muy sencillo de explicar: la red neuronal que hay detrás ha aprendido partiendo de un montón de ejemplos etiquetados y la máquina destacará los objetos y nombres que más se asemejan a lo aprendido previamente.

      Al igual que cualquier persona que vea esa imagen lo primero que dice no es «ojos» sino tigre o animal, la máquina igual. Fíjate que en la imagen aparecen más palabras con una probabilidad menor pero que no son del todos erróneas (salvo las últimas de «cats» pero con baja probabilidad). Me ha hecho gracia lo de «whiskers» (bigotes).

      Y sí, es muy útil que identifique elementos definidos previamente, ya están apareciendo sistemas que identifican y reconocen imágenes o leen los labios a un nivel sobrehumano.

      • Gorki - 10 marzo 2017 - 00:23

        Muy posiblemente sea como tu dice, pero por eso no me vale para gran cosa. Cuando yo pregunto en Google, pregunto un conjunto de palabras como «coche verde antiguo», en texto me da una serie de respuestas entre la que aparece un textos que tiene las tres palabras «Seat 600 verde 1950″y otro que dice «coche descapotable verde 1910». Si Google solo me diera respuestas útiles cuando pongo «Seat» me seria de relativamente poca utilidad.

        Si pregunto por «animales con manchas» y no me saca imágenes de una vaca, un tigre, un gato, un tiburón ballena y una mariposa, me valdrá de poco, Si solo me vale para poner «tigre» y obtener tigres, eso es lo que ya me da las imágenes de Google, que lo hagan por el titulo del fichero. o por analogías de imagen no añade mucho a lo que ya tengo.

    • Jose Fernandez - 10 marzo 2017 - 13:30

      Precisamente por tratarse de un vídeo en el que hay una secuencia de fotogramas es más fácil identificar los objetos principales y protagonistas, que serán los que mayor presencia tengan en la mayoría de los fotogramas. Las plantas irán y vendrán, y un río, y los árboles… Pero la presencia del tigre tendrá continuidad.
      Mucho más complicado decidir el objeto protagonista en una única fotografía
      Saludos

      • Krigan - 10 marzo 2017 - 15:11

        Además de lo que dices, si el fotograma que aparece en la imagen del artículo fuera una fotografía aislada, el objeto protagonista seguiría siendo el tigre.

        Las personas aplicamos toda una serie de reglas para asignar papeles protagonistas en fotos, vídeos, e incluso otras percepciones sensoriales como los sonidos. Está claro que las máquinas también son capaces de hacer esa tarea.

        Una vez hecha esa clasificación, que es altamente coincidente con la que hacemos nosotros mismos, las posibilidades que se abren son infinitas.

  • #016
    Pedro Trillo García - 10 marzo 2017 - 09:16

    En 2013 desayunando con mi jefe, se me ocurrió soltar que a futuro realizariamos compras de e-commerce directamente sobre objetos etiquetados dentro de un vídeo, se puso el ejemplo de la chaqueta de la película de Drive, y cómo etiquetandola podrías llegar a un Link de compra, parecía un disparate y acarreó sus críticas, tan sólo 4 años después, gracias a una potencia de computación pararela en cloud, por fín se identifican objetos. El vídeo durante más de una década se ha mantenido estático, recordemos que es la señal digital con más información y datos que tenemos, esto no ha hecho más que comenzar, ahora empiezan las combinaciones, es un hito histórico para Google, para la publicidad en Internet y para el video digital, no es un tigre si no una puerta de Link building totalmente nueva y rica en información.

Dejar un Comentario

Los comentarios están cerrados