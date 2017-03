Google anuncia durante su conferencia Google’s Next Cloud que ha desarrollado la capacidad de buscar y localizar objetos en un vídeo, y que la ofrece ahora en forma de una API de Cloud Video Intelligence disponible para desarrolladores, como ha hecho con el resto de sus APIs de machine learning. Junto con el anuncio de la adquisición de la comunidad de desarrollo de competiciones de modelos predictivos y analíticos Kaggle, también por parte de Google, son sin duda las noticias sobre el tema más importantes de la semana.

El anuncio y demostración del reconocimiento de objetos en vídeo, llevado a cabo por la profesora de Stanford y directora de machine learning y AI de Google Cloud, Fei-Fei Li, podría parecer relativamente trivial considerando que ya hace cierto tiempo que nos hemos acostumbrado a buscar por palabras clave en una colección de fotos y obtener resultados que no provengan directamente del etiquetado manual, sino del reconocimiento de los objetos existentes en las imágenes, pero la complejidad implicada en construir esa misma función para vídeo es muy superior, y las posibilidades que abre, para la compañía que posee el mayor repositorios de vídeo del mundo, también lo son.

¿Qué ocurre cuando un algoritmo puede visualizar un vídeo, entenderlo y reconocer los objetos que hay en él? Hasta ahora, un vídeo era un contenedor prácticamente cerrado, en el que las únicas formas que teníamos de localizar algo era mediante su título o etiquetándolo con palabras clave. Desde hace muchos años, esa situación nos parece “lo normal”, lo que la tecnología da de sí, una limitación tan asumida, que eran pocas las ocasiones en las que pensábamos en la posibilidad de algo así. El vídeo es uno de los componentes de la web sujeto a un índice de crecimiento mayor, pero por el momento, la capacidad de hacerlo indexable resultaba bastante limitada. ¿Qué ocurre cuando los algoritmos de machine learning son capaces, por un lado, de reconocer las palabras pronunciadas en un vídeo, pasarlas a texto y hacer que podamos buscar en él, y además, otros algoritmos se encargan de entender el contenido y permitir que podamos buscar imágenes? Pedir a un buscador que nos localice menciones o apariciones de algo – un objeto, una marca, un logotipo, una persona, etc. – en un repositorio de vídeo, y obtener una página de resultados en la que se nos indiquen los vídeos que lo contienen, y el lugar del vídeo en el que se encuentra… ¿Cuántas nuevas posibilidades y avenidas para la innovación se pueden abrir gracias a algo así?

Para Google, como para otros competidores en el entorno cloud computing, la forma de competir no es simplemente tratando de ofrecer más prestaciones por menos precio – lo que supondría especializarse en la clásica estrategia de liderazgo en costes – sino ser capaz de ofrecer prestaciones más sofisticadas para sus usuarios. La oferta de una función como esta hace que, de manera automática, la nube de Google, que hasta el momento se percibe como por detrás de otros competidores como Amazon o Microsoft, se convierta en una opción más interesante para aquellos competidores en los que el vídeo juega un papel fundamental, que ahora pueden plantearse mucho más servicios asociados a la puesta en valor de sus repositorios. Pero además, posibilita también el desarrollo de nuevos servicios planteados por otros competidores, que podrían permitir la adopción de modelos de plataforma para aquellos que consideran el vídeo como el centro de su negocio. Hablamos de dinamizar y convertir en indexables muchísimos millones de horas de vídeo, con contenidos de todo tipo, que se abren a la posibilidad de ser tratados de maneras muchísimo más ricas.

Ahora, una máquina puede ver un vídeo de un tigre, entender que es un tigre lo que hay en el vídeo, y encontrarte vídeos en los que aparezcan tigres. Todo ello, sin que nadie haya etiquetado o titulado ese vídeo como conteniendo un tigre. Lo mejor de estudiar el machine learning y la inteligencia artificial es que nunca dejas de sorprenderte.

This post is also available in English in my Medium page, “Machine learning and video recognition: an important border“