La torre de Babel (y el machine learning como bola de demolición)

Pieter Bruegel the Elder - The Tower of Babel (SOURCE: Wikipedia)Facebook anuncia que abandona el motor de traducción de Bing, que utilizaba desde 2011, para sustituirlo con su propio motor de traducción basado en machine learning.

Un movimiento que permite entender muchas cosas: en primer lugar, la enorme y radical importancia que el machine learning, convertido ya en auténtica ventaja competitiva sostenible, está adquiriendo en un número cada vez mayor de tareas de todo tipo. Cada vez más, contar con las herramientas adecuadas que permitan poner en marcha algoritmos reutilizables, eficientes y fáciles de utilizar se convierte en un factor fundamental para ser competitivo. Quien quiera ser parte de ese futuro, debería prepararse aprendiendo a utilizar herramientas como TensorFlow, FBLearner Flow, AzureML, WhizzML, SystemML, Amazon Machine Learning u otras afines, bloques sobre los que se construye la ingeniería y los procesos del futuro. Herramientas que indudablemente tienden a rebajar las barreras de entrada y a poner el machine learning en manos de personas que no necesariamente sean data scientists, pero que es preciso entender e interpretar en la manera adecuada, además de ser consciente de su potencial.

En segundo lugar, la enorme importancia de la base de datos, de los elementos que se utilizan para alimentar y educar a esos algoritmos. Facebook es capaz de desarrollar su motor de traducción gracias al hecho de contar con una enorme cantidad de actualizaciones traducidas y evaluadas por los usuarios, mediante un sistema sencillo de cinco estrellitas que permite que el proceso no genere pereza y se pueda generar un enorme flujo de iteraciones que procesar. Es la esencia del machine learning: cada error, cada iteración no satisfactoria, se convierte en una enseñanza para el algoritmo, en un paso más en un proceso de aprendizaje continuo de una máquina que no olvida, que absorbe el conocimiento con una eficiencia muy superior a la del cerebro humano, y que puede además suplementarse con otros procesos iterativos. A la hora de construir una base de datos con la que educar a su algoritmo, Facebook cuenta con más de dos mil millones de traducciones de actualizaciones generadas cada día, en cuarenta idiomas, en 1,800 pares lingüísticos.

Como tercera conclusión interesante, entender la traducción como una muestra de lo que significa este proceso. Todos sabemos lo que eran los motores de traducción: sistemas imperfectos que traducían palabra por palabra para generar resultados cuando menos «pintorescos» que el usuario tenía que intentar prácticamente interpretar. De ahí pasamos a sistemas capaces de evaluar un término dentro de un contexto y escoger un significado basado en él, que seguían sin ser perfectos, pero mejoraban sensiblemente el resultado. Ahora, lo que tenemos es una máquina capaz de tomar una frase, compararla con infinidad de casos anteriores convenientemente evaluados, y generar reglas dinámicas muy similares a las que un humano construiría en su cerebro para llevar a cabo una tarea similar. Un largo camino, que mejora sensiblemente el resultado, que permite trabajar con idiomas con estructuras gramaticales muy diferentes, y que permite entender el funcionamiento de muchas cosas. ¿Qué hace que un coche autónomo basado en machine learning conduzca mucho mejor que un humano? No solo el que tenga mejor visión, unos reflejos prácticamente instantáneos o que no se canse, no se distraiga, no beba y no se pique con el conductor de al lado en el semáforo, sino que además, es capaz de aprender de cualquier error y anotarlo, junto con todo el contexto que lo originó, en una memoria permanente para que no pueda volver a ocurrir.

Las empresas del futuro serán las que sean capaces de aplicar este tipo de eficiencia basada en el machine learning a todos sus procesos.

 

This article is also available in English in my Medium page, “The Tower of Babel (and machine learning as the wrecking ball)«

 

13 comentarios

  • #001
    menestro - 26 mayo 2016 - 18:13

    A veces, es más fácil salirse, y continuar dando lecciones a los algoritmos, que arreglarlo. Tal vez es lo que ha sucedido con Bing. Ya sabes cómo son los convites de cumpleaños, y quien friega los platos al final. :-)

  • #002
    queimacasas - 26 mayo 2016 - 18:20

    Justo estaba leyendo hoy temas encadenados ….
    Partiendo de comentarios del «nuevo» Siri de Apple, siguiendo por el número de apps que se instala la gente al mes y llegando entonces al quiz del ML: cada vez las «mejores» apps en local hacen menos cosas y se traslada todo a servicios en la nube
    Estas 2 cosas hacen que las condiciones del éxito de una app se estén «encareciendo»: si ya es difícil que alguien tenga intención de instalar una app de la temática de la tuya, si la tuya no tiene servicios avanzados, olvídate de que la instale

  • #003
    Goomer - 26 mayo 2016 - 18:22

    ¿Serán los profesores de idiomas y traductores los próximos «taxistas»? Esto no para…

    Al hilo de lo que comenta Enrique en cuanto a la conducción autónoma para elegir un domicilio, ¿se puede aconsejar a alguien que aprenda hoy en día un idioma diferente del inglés? Yo que tengo mis más y mis menos con un idioma europeo que no termino de dominar pese a la enorme inversión en tiempo, esfuerzo y también dinero siendo adulto, me lo pregunto a veces, si es que vamos a un escenario de Torre de Babel derribada en menos de cinco años…

    • Carlos - 26 mayo 2016 - 22:30

      No, ni mucho menos….. la traducción será de lo último que caiga. Simplemente el lenguaje humano es tan complejo, y sobre todo, tan ambiguo, que será de lo último en lo que las maquinas puedan superarnos. Cualquiera que sepa dos lenguas a muy buen nivel lo puede comprobar con Google Translate, que tiene uno de los mejores traductores hoy día.

      Respecto a aprender otros idiomas a parte del inglés… bueno, soy de la opinión que con la traducción siempre se pierden cosas. Y más si hablamos de lenguas poco relacionadas o sin ninguna relación. No es un tema de calidad de traducción, es que las palabras, las construcciones, estructuras gramaticales, etc… no son homomórficas entre lenguas. Eso no lo va a cambiar ni la mejor IA que exista nunca.

      • Goomer - 26 mayo 2016 - 23:15

        Tu dale al machine learning hasta que entienda el contexto, y a ver qué pasa. El Go también se suponía que era difícil de aprender y jugar para una máquina…

        Te pongo un ejemplo, si tienes cierto nivel con una lengua, pero no la dominas, igual has usado servicios como el de linguee. Hay tienes todos los contextos, enséñale al sistema a detectarlos, y ya tienes tu traducción fiable…

        • Carlos - 27 mayo 2016 - 14:24

          Algo de ML se, que lo he usado bastante, y no, no será suficiente; ayudar ayudará a mejorar, quizás sustancialmente, la calidad de las traducciones automáticas, pero en mi opinión, un traductor equiparable a un humano sería una maquina con una mente a todos los efectos equivalente a la humana. El Go es muchísimo más facil de atacar que las lenguas naturales, pero muchísimo más, y si ha sido toda una proeza (que lo es) lo de DeepMind, imagínate esto.

          La ambiguedad, la complejidad de los contextos que es báscamente intratable hoy día, la falta de homomorfismos entre lenguas, etc, se conforman como barreras que va a costar muchísimo saltarselas. Es más, pudiera ser que nosotros seamos incapaces de hacerlo y tengamos que esperar a una IA capaz modelar sistemas complejos mucho mejor que nosotros… vamos, una IA más capaz que nosotros en matemáticas, y seguramnete para entonces dará igual, por que la singularidad tecnológica quizás esté a la vuelta de la esquina en ese momento.

          • Enrique Dans - 27 mayo 2016 - 15:57

            ¿Y el Jeopardy? Puro lenguaje natural, a veces hasta con ironías y segundas en la formulación de las preguntas… y Watson ganó a los mejores jugadores de la historia del concurso sin despeinarse…

          • Rodrigo - 27 mayo 2016 - 18:36

            Estoy de acuerdo con Carlos que el lenguaje humano es un tema muy complejo como para que «todo» (traduciones, profesores de idiomas ..) sea sustituidos por ML.

            Lo que si que tengo claro es que el ML, Analytics, … da una ventaja competitiva a las empresas que lo usen muy importante. Y lo que se ha comentado muchas veces: elimina puestos de trabajo a toneladas!!!!

          • Carlos - 28 mayo 2016 - 01:49

            Es que el Jeopardy! no es traducción; es decir, lo que demostraron con Watson fue muy impresionante, en el sentido de que pudieron modelar de manera muy precisa lenguage natural; lo suficientemente precisa para responder preguntas, pero en ese mismo lenguaje.

            La traducción trae otro problema aparejado, como son que los modelos semánticos y estructurales de diferentes lenguajes naturales no son homomorficos. Eso añade un capa de complejidad al problema inmensa. En mi opinión muchísimo más grande que simplemente contestar al Jeopardy! tan bien como para ganar a cualquier humano. Por poner un ejemplo sencillo, «tiempo» corresponde en ingles a dos palabras, «weather» y «time»; pero además, algunos usos en inglés de «weather» serían traducidos en español como «clima»; otros como «desgastar»; algunas expresiones típicas, como «hot weather» se traducen como calor; usos de «clima» en español que de vuelta al inglés son «climate»; y de «climate» que se traducen como «tiempo», pero que en inglés no se usaría «weather» nunca. Siguiendo con «climate», hay contextos que implicarían traducir al español con «ambiente», «atmósfera», o «situación». Bueno, pues todo esto pasa con idiomas que están bastante relacionados, y palabras que tienen la misma etimología en las dos lenguas. Traslademos eso a lenguas sin relación como puede ser el farsi con el yoruba, el coreano con el aymara, el polaco con el vietnamita…. y uno puede empezar a imaginar la magnitud de la tarea.

            Por acabar, un pequeño ejercicio con Google translate: meter la siguiente frase «la situación general llamaba a la calma, especialmente en medio del caluroso tiempo que estaba haciendo en la ciudad, que no ayudaba a calmar los animos precisamente. » Y simplemente coger la traducción al ingles que hace, y volverla a pasar al español; iterar hasta llegar a un invariante. A mi me ha dado 9 pasos (que no esta nada mal) pero el resultado final es gramaticalmente incorrecto y no expresa realmente lo que quiere decir la primera frase. Por no hablar que una traducción que a mi se me ocurre (en función de un contexto probable a dicha frase) es «the general state of affairs called for calm, especially amid the hot climate that was affecting the city, which expressly was not helping to ease the tensions» que se parece muy poco a lo que saca el traductor.

            Por acabar, esto será una piedra de toque de la IA, y como dije más arriba, por mucha IA que tengamos, el conocimiento de otras lenguas no lo suple ni las mejores traducciones disponibles (IA o no).

  • #010
    Mauricio - 26 mayo 2016 - 23:00

    Ciertamente Google Translate hace un mejor trabajo que otros sitios similares más antiguos y realmente espero que a través del machine learning se dé efectivamente una mejora sustancial en este tipo de traducciones. En todo caso, la cantidad de trabajo que hay por delante es, en mi criterio, todavía enorme, especialmente cuando nos referimos a las traducciones que no son desde o hacia la lengua inglesa.

    Por otro lado, aunque la utilidad de estas herramientas es innegable, también es claro que para una buena relación entre los seres humanos es necesaria una mutua voluntad de entendimiento. Entre los hispanohablantes del continente americano, por ejemplo, la lengua común nos ha facilitado la comunicación, lo que sin embargo no ha impedido la existencia de numerosos conflictos. Además, aunque en la época de Internet todos podríamos enterarnos fácilmente de lo que ocurre en los países vecinos, la realidad es que, salvo excepciones, los contactos que tiene la gente en Facebook o Twitter o las noticias que lee son, principalmente, de personas o medios de su propio país.

    Es probable que la gente que más feliz esté con un excelente traductor automático sea la que menos lo necesite, debido a que ya conoce la lengua meta y solo quiere ahorrar algo de tiempo. Gente como Enrique, que domina el inglés, pero que con un buen traductor automático se ahorraría el tiempo y el esfuerzo de traducir sus posts y sus materiales de clase a dicha lengua.

    • José Antonio Garcia - 26 mayo 2016 - 23:34

      He de reconocer que el aprendizaje de idiomas es uno de mis temas favoritos, no que los domine, pero si me gustan, a otros les da por los videojuegos. El problema de no conocer un idioma es la barrera que supone ante los demás y que te quita muchos puntos. Al contrario también pasa, un compañero habla perfectamente francés e inglés, el problema es que para lo que tiene que decir…
      La traducción perfecta creo que a una máquina aún le queda, pero estoy cambiando de opinión creo que lo del crecimiento exponencial va a ser cierto.
      Otro ámbito de aplicación de este tipo de traductores unidos con la IA es la enseñanza. Una buena aplicación que te haga de tutor y que te permita reducir el tiempo de aprendizaje en etapa principiante creo que ya se podría hacer, un duolingo más profesional…
      La etapa que queda es como influir a tu capacidad de aprendizaje para que seas capaz de aprender más cosas en menos tiempo. Algo parcido a las teorías de Lozanov y su sugestopedia pero quitándole el rollo supersticioso y de vendedores de humo. Vamos que hasta lo que he investigado mucho humo con lo del ritmo interior, usar música del barroco,,,, no sé si habra experiencias más recentes con análisis rigurosos. Si teneis algún enlace al respecto os lo agradecer.ia.
      Saludos

  • #012
    Jordi - 27 mayo 2016 - 09:05

    Que vida más aburrida nos espera!!

  • #013
    Luis Perez Camacho - 28 mayo 2016 - 20:10

    Si los coches autoconducidos usan machine learning de Microsoft, acabarán no sólo picándose con el coche de al lado, sino aparcando en las plazas de minusválidos, como su robot de Twitter, que pasó de inocente a neonazi en minutos.

Dejar un Comentario

Los comentarios están cerrados