Las máquinas aprenden. Sí, pero… ¿de qué?

Un interesante artículo en TechCrunch, «Machine learning and human bias: an uneasy pair«, me pone sobre la pista de algunas iniciativas de la policía de varias ciudades norteamericanas y su uso de herramientas de machine learning con el fin de predecir determinados crímenes, poner a determinadas personas en «listas calientes», o calcular la frecuencia recomendable de patrulla en algunas áreas de la ciudad. Un uso que nos evoca de forma inmediata escenas de películas de ciencia-ficción como «Minority Report« y su Departamento de Pre-crimen, pero que de manera efectiva ya lleva cierto tiempo siendo una realidad.

Un artículo de 2013 en Chicago Tribune relata cómo el Departamento de Policía de la ciudad utiliza herramientas analíticas para determinar qué personas tienen mayores posibilidades de aparecer implicados en crímenes violentos, y llega hasta el punto de visitar a esas personas para notificarles su inclusión en una lista determinada, en un intento de que corrijan su comportamiento al saberse objeto de un nivel de vigilancia superior. Acciones que serían completamente inaceptables en el contexto de muchos países, pero que la legislación norteamericana puede permitir en función de determinados parámetros.

En el estado de Alabama, la ciudad de Oxford utiliza una aplicación de machine learning que divide el territorio de la ciudad en recuadros de 150 metros de lado y trata de predecir en qué áreas es más probable que ocurra un crimen, de manera que los recursos policiales se asignen con mayor eficiencia. La aplicación, denominada Predictive Policing Software, o PredPol, afirma utilizar únicamente datos públicos acerca del tipo de crimen, el lugar y la hora en la que tuvo lugar, sin hacer uso de datos personales procedentes de los ficheros policiales, simplemente haciendo análisis de frecuencias y tratando de reducir su incidencia mediante un incremento de la presencia policial en esas áreas.

¿De qué aprende una máquina? Mientras la llamada internet de las cosas no llene el mundo de sensores que les proporcionen ojos, oídos y sentidos de todo tipo, las máquinas aprenden, obviamente, de los datos con los que alimentamos sus algoritmos, datos que pueden estar sujetos a la subjetividad de las personas que los obtienen.

No se trata de demonizar nada ni de descartar de forma demasiado apresurada tecnologías que podrían ser enormemente útiles, sino de reconocer que cuando incorporamos a este tipo de algoritmos datos personales de cualquier tipo, el riesgo de incorporar en el aprendizaje de la máquina cuestiones como el lugar de residencia, el perfil racial o la religión y vincularlos a estereotipos definidos en base a la experiencia surge de manera inmediata. La transparencia a la hora de construir esos algoritmos o de decidir con qué datos deben ser parametrizados pasa a convertirse en un factor fundamental. Sin duda, una cuestión, los principios de equidad, responsabilidad y transparencia (FAT, Fairness, Accountability and Transparency) con los que se construyen los algoritmos de machine learning, que va a ir tomando importancia a medida que más y más decisiones pasen a estar determinadas por máquinas que aprenden.

This article is also available in English in my Medium page, “Machines can learn. But what do they learn from?»

#001
Pedro Torres - 3 agosto 2015 - 14:47
Hay mucho conservador disfrazado de liberal que entran en rebeldía ante la discriminación positiva, pues se agarran a la parte de los derechos humanos de «no discriminar» mientras ignoran la parte de las ideas liberales donde el objetivo primordial es la lucha por la justicia.
Es un ejemplo de como unas buenas intenciones y un buen discurso solo oculta el conservadurismo rancio.
En USA critican mucho la discriminación positiva en los negros. Al final aunque la mona se vista de seda, mona se queda.
#002
Nacho - 3 agosto 2015 - 16:07
La ficción suele ir por delante en estos casos: https://es.m.wikipedia.org/wiki/Person_of_Interest_(serie_de_televisión)
#003
Agustín García - 3 agosto 2015 - 16:30
Verdaderamente me parece un problema ético importante. ¿Qué información le damos a las máquinas? ¿Para qué? ¿Cómo se la damos? ¿Quién decide sobre esto?.
Creo que apenas estamos a las puertas de un nuevo uso de la información que, espero sinceramente, nos permita mejorar en libertad.
#004
Antonio Castro - 3 agosto 2015 - 17:19
Enrique, eso sí me lo creo porque la ponderación de numerosos factores de riesgo para llegar a una clasificación de las personas me cuadra con el tipo de análisis que vienen haciéndose en los sistemas expertos de toda la vida. Supongo que usarán inferencia bayesiana o algo de ese tipo.
Lo que no estoy dispuesto a aceptar es que hablemos de cosas como la conducción autónoma sin el menor rigor porque circular bajo condiciones controladas y a una velocidad menor es simplificar tanto el problema que yo tendría que decir que tuve mi primer vehículo autónomo con menos de seis años. Funcionaba a pilas, esquivaba las paredes del pasillo después de chocar con ellas y si lo ponía encima de una mesa evitaba caerse de la misma. Todo ello con artilugios mecánicos muy ingeniosos.
En lugar de dar crédito a Google cuando lanza las campanas al vuelo, como cuando hizo lo propio con las Google Glasses, deberíamos ser más prudentes con las expectativas, salvo que lo que se pretenda es hacer un artículo pobre qué, eso sí, generará comentarios más interesantes que el propio artículo.
Tenemos recetas o algoritmos para abordar problemas concretos pero yo no veo el tema de la conducción como si se tratar de resolver un problema concreto.
Los animales no conducen vehículos, así que cuando hablamos de conducción autónoma estamos haciendo una equiparación directa con la inteligencia de un ser humano. Conducción autónoma es sentarse en el asiento de atrás indicar el destino y echarse una siesta y si hablamos de otra cosa habría que concretar el término. Podremos hablar de auténtica inteligencia artificial equiparable a la humana cuando podamos hablar de viva voz con el buscador de Google durante medio minuto explicándole nuestro problema y nos responda con una de las páginas más relevante que existan en Internet para resolverlo.
No me cabe duda de todo eso llegará y que tendrá unas consecuencias brutales sobre la sociedad. Sin duda es un tema apasionantes, pero seamos claros ni eso ni la conducción autónoma sucederá mañana ni dentro de diez años.
Las expectativas sobre lo que empezó a llamarse Inteligencia Artificial a raíz de los primeros sistemas expertos tales como DENDRAL, MYCIN, y muchos otros que son del estilo de lo que tú acabas de presentar en el artículo, crearon en su momento unas expectativas exageradas y por lo visto seguimos igual.
Lo de este artículo sí pertenece a un terreno que las máquinas dominan, pero en otros temas más ambiciosos estamos siendo víctimas de la propaganda al estilo Google Glasses.
- Gorki - 3 agosto 2015 - 19:03
  CEO da Nissan confirma produção de veículos autônomos para 2020 http://br.blogthinkbig.com/2015/07/26/ceo-da-nissan-confirma-producao-de-veiculos-autonomos-para-2020
  - Jl - 3 agosto 2015 - 22:42
    Que si Gorki, que ya sabemos lo que dice el CEO de Nissan, pero ya que tu te repites yo también…que hablan de funciones de conducción autonoma. Mantener la velocidad y distancia con el coche de delante en autopista, de aparcar solos y de mantenerse en el carril.. No tiene nada que ver con con lo que explica Antonio de conducción autonoma. Seguro que si buscas un poco hace 5años también decía que en 2015 el 30 % de las ventas serían coches eléctricos….y creo que al año pasado no llegaron a 1100 coches vendidos en España, sobre un total de 855.000 por ejemplo. No se si diría el 30 %, pero te aseguro que el 0,2 % tampoco. Bueno..si miras solo los Nissan llegan a un 1,5 %…
    Por cierto, para que puedas tener otra fuente mejor que en portugues, te incluyo el link de las declaraciones en español. http://blogthinkbig.com/ceo-nissan-confirma-coches-autonomos-2020/
    O espera..que parece que en español autónomo no quiere decir sin conductor… Que para eso no hay fecha…
#007
menestro - 3 agosto 2015 - 18:46
Aumentar la seguridad nunca ha tenido que ver con el aumento de la vigilancia. Eso es algo que es conocido desde el panóptico de Bentham. Poner un sistema de vigilancia intensiva lo único que produce es un desplazamiento de esa actividad, o una adaptación a la misma. Y efecto sobre la productividad o la calidad de vida ya se conoce. Sobre relacionar el crimen con datos de origen étnico, social, etc… bueno Enrique, no creo que eso sea de recibo en un país democrático.
Es como lo que sucede con Hawking, Musk y Wozniak en el tema de la singularidad. El desconocimiento de los fundamentos de un campo de conocimiento no implica que se pueda suplir con Machine Learning. Hay bases sobre las que se asienta la sociedad que no permutables por una supuesta seguridad artificial.
Lo entenderías mejor si tuvieses la piel de color negro y tuvieses que pasearte por María de Molina con un porfolio de apuntes.
Predecir de forma estadística el crimen no lo evita, puesto que precisamente es una conducta deliberada y no un acto espontáneo y que se da en un contexto determinado. No creo que les preocupase la vigilancia, sino eludir a la policía.
La policía actualmente ya cuenta con mapas de puntos calientes, prácticamente desde los años 70. La única utilidad sería tratar de indicar un incremento de la delincuencia en una zona determinada antes de que fuese notorio.
Y los resultados, bueno, si has leído sobre CompStat el sistema de «crime tracking» del NYPD ya conocerás el resultado, y tal como sucedió con los estudios anteriores, la conducta se altero evadiendo el sistema, en concreto fueron los propios policías los que alteraron la estadísticas.
http://www.nytimes.com/2010/02/17/opinion/17bratton.html?_r=0
Y al que le guste la serie Numb3rs, le encantará Wolfram Alpha.
http://numb3rs.wolfram.com/
#008
Gorki - 3 agosto 2015 - 18:57
Absolutamente de acuerdo, tiende a pensarse que los datos son absolutamente neutros, sin ideología, sin tener en cuenta que si bien un dato es un número neutro, la importancia que les damos no es neutra, aplicamos nuestros prejuicios e ideología al interpretarlos y ello aun que no nos lo hayamos propuesto, casi inevitablemente.
Por ejemplo, consideramos el ajedrez una actividad mental superior y el tener buen sentido del ritmo no lo valoramos como nada que tenga valor mental, cuando lo más probable es que jugar al ajedrez, sea una actividad que se da bien a los caucásicos y el bailar con ritmo, a los negros. El dato es el dato, hay tanto jugadores de ajedrez blancos, por uno negro y hay tantos bailarines negros, por uno blanco, pero los prejuicios y la ideología, se esconde en la escala de valores que aplicamos a los datos.
- JL - 3 agosto 2015 - 23:17
  Jugar al Baseball es también algo de blancos y excepto tu no creo que a mucha gente se.le.ocurra pensar que es una actividad mental igual a jugar al.ajedrez… así que no.mezclemos churras con merinas. No hay ningún racismo en pensar que bailar reagheton o salsa sea una actividad mentalmente «menos exigente» que jugar al.ajedrez….
#010
Alfonso - 4 agosto 2015 - 09:04
¿Y no os da la sensación de que estanoticia es puro márketing?
Todos sabemos que la policía hay barrios en los que ni entra en cualquier ciudad grande.
¿O enfocan esto a los barrios de clase media que es la que es fácil y cómodo multar, detener,metc…?
Y tengo aprecio por varios amigos policías pero la realidad es la que vemos todos los días, no?
#011
Antonio Castro - 4 agosto 2015 - 11:10
El artículo no es puro marqueting. De hecho, es básicamente una pregunta y ademas bastante interesante y creo que puedo intentar responderla.
Una máquina cuando aprende básicamente reconoce patrones y asocia de una forma parecida a como lo hacen algunos animales como el perro.
Yo creo que un chimpancé no hace solo eso. Los chimancés no solo asocian. Tienen conciencia de sí mismos y además razonan. Los chimancés que son recluidos con vallas electrificadas suelen asegurarse todos los días de que la valla funciona y da la desagradable descarga. Son los únicos animales que hacen algo así.
Las máquinas reconocen fonemas, reconocen patrones visuales, reconocen patrones moleculares, patrones de enfermedades y diagnósticos, patrones meteorológicos, etc. De hecho, cada vez lo hacen mejor, pero dudo que eso se acerque a pensar de la manera humana.
No quiero caer en el antropocentrismo y reconozco que el ser humano es en esencia un simio evolucionado, pero hay algo más. Hay un avance cualitativo derivado del hecho de que los dos hemisferios cerebrales empezaron a asumir distintas funciones, apareció la lateralidad el cerebro se fue estructurando de otra forma y el ser humano fue capaz de construir frases creando un auténtico lenguaje, eso fue debido quizás a una capacidad de abstracción considerable.
Una máquina que en una cinta transportadora reconoce tornillos y tuercas para luego separarlos puede determinar si algo puede ser asimilado a un tornillo a una tuerca o detectar algo que no encaje con ninguno de ambos patrones. El ser humano puede ir más lejos, podría deducir si se trata de un tornillo deforme, una tuerca deforme, una pieza totalmente desconocida, o un fallo de percepción visual y aventurar una causa.
Las máquinas que reconocen fonemas necesitan comparar los fonemas con un conjunto limitado de fonemas para saber si alguno encaja con alguno de ellos. Un ser humano puede ir más lejos, puede saber si se trata una palabra desconocida y preguntar su significado, puede saber si no entendió bien y necesita que le repitan más lento, con más volumen, o pedir que se saquen el chicle de la boca antes de hablar.
Lo que intento decir, es que se están produciendo avances cuantitativos en el reconocimiento de patrones y muchos creen que la magnitud de esos avances nos acerca a los objetivos de la inteligencia artificial para tareas complejas como la conducción autónoma, pero no se está produciendo ese salto cualitativo que caracteriza la forma de pensar humana.
El día que las máquinas tengan esa capacidad, podrán aprender cualquier lenguaje incluido los lenguajes de programación y les podríamos pedir de viva voz que programaran aplicaciones. El problema es que seguramente también tomarían conciencia de si mismas y no solo serían capaces de autorepararse, sino incluso de auto programarse. Creo que el salto cualitativo es claro y estamos tan lejos de llegar a algo así, que convendría analizar desde la humildad los límites de las capacidades actuales de nuestras máquinas y no lanzar las campanas al vuelo con la alegría que acostumbran muchos entusiastas de la tecnología. Conste que a mí me encanta la ciencia y la tecnología, pero tengo tendencia al escepticismo y creo que las afirmaciones extraordinarias necesitan de argumentos que estén a la altura.
- Krigan - 4 agosto 2015 - 12:53
  Los ordenadores no juegan al ajedrez como los humanos, los programas de ajedrez ni siquiera usan inteligencia artificial, son simples machaca-números que evalúan millones de posibles jugadas, pero desde hace ya años tienen capacidad sobrada para ganar incluso a los mejores jugadores humanos.
  Es un error pensar que una máquina que hace una tarea que hasta entonces estaba reservada a las personas la va a hacer como un humano, o que su cerebro electrónico tiene que ser tan polivalente como el nuestro.
  No es así. Un simple cajero automático sustituye parcialmente al cajero humano de una sucursal desde hace décadas. Un servidor de Internet sustituye a toda una sucursal en la actualidad, para todo (o al menos para todo lo que yo necesito) salvo para sacar dinero en metálico, y para eso ya tengo… al cajero automático.
  ¿Acaso los robots industriales tienen forma humanoide? ¿Acaso sus ordenadores piensan como un obrero fabril? No, pero han reemplazado a millones de estos, y más que van a reemplazar ahora que son económicamente más efectivos que incluso un barato obrero chino.
  En cuanto a la conducción autónoma, los prototipos de Google ya acumulan un millón de millas y subiendo, sin haber provocado ni un solo accidente. Puedes apostar lo que quieras a que su sistema informático no es capaz de llevar una moto, ni siquiera pilotar un avión o un barco, pese a ser tareas mucho más sencillas, pero eso de conducir un coche lo están haciendo muy bien.
  Lo cual vuelve muy pertinente la pregunta del artículo, porque las máquinas sí están aprendiendo, incluso tareas completas que implican percepción sensorial y reconocimiento de patrones (2 cosas que se les daban mal hasta ahora), pero quien las está enseñando es un ser humano.
#013
Antonio Castro - 4 agosto 2015 - 18:11
KRIGAN, los ordenadores que juegan al ajedrez no son simples machaca números y si fuera así me estarías dando la razón porque no es lo mismo razonar que machacar números. Las máquinas son tontas muy rápidas.
El número de partidas posibles en el ajedrez es superior al número estimado para la cantidad de átomos que hay en el universo. Los ordenadores que juegan al ajedrez no se limitan a la fuerza bruta. Combinan la fuerza bruta con algoritmos que permiten asignar un valor a una posición final tras varios movimientos. El algoritmo para calificar una posición de una partida incluyen una receta con multitud de ponderaciones basadas en la experiencia humana. Solo así se puede puede podar eficazmente el árbol de búsqueda de movimientos. Esos programas incluyen una base de datos de conocimientos de expertos ajedrecistas muy amplia. Movimientos de apertura, finales, etc.
Los coches de Google ya han sufrido algún accidente es un porcentaje bajo es difícil saber cuantos. Se dice que no tuvieron la culpa de esos accidentes, pero dudo que estemos al corriente de todos los incidentes.
Para que comprendas el problema de reaccionar ante algo nuevo e inesperado existe un caso documentado.
Un vídeo de Urmson mostró la primera vez que uno de los coches de Google se encontró con una rotonda, cuando el vehículo decidió que la opción más segura consistía en seguir dando vueltas indefinidamente.
- Krigan - 5 agosto 2015 - 00:16
  Bueno, en ningún momento busqué contradecirte. Tal y como dije, yo también pienso que los ordenadores actuales no son capaces de aprender por sí mismos, necesitan que un humano les enseñe.
  Sigo pensando, no obstante, que también son ciertas estas 2 cosas:
  – Que la máquina ha superado al hombre en no pocas tareas, pese a que fue el hombre el que diseñó a la maquina, y la enseñó de una u otra forma a hacer esas tareas. Los programas de ajedrez ganan a todo el mundo, incluidos aquellos que hicieron los programas.
  – Que muchos diseños exitosos no se basan en conseguir que la máquina sea inteligente, ni en hacer que reproduzca de alguna manera la actividad mental humana, sino que la máquina hace las cosas de manera muy diferente. Los programas de ajedrez y el coche de Google son 2 buenos ejemplos. Sus «procesos mentales» (por llamarlos de algún modo) ni se parecen a como lo hacemos los humanos.
  Mientras esto siga siendo así, que los ordenadores no sean capaces de aprender por sí mismos, que cualquier reconocimiento de patrones entre dentro de lo programado, seguirán siendo necesarios los programadores, los ingenieros, los científicos, y los jefes que les dirijan a todos ellos.
  Pero no serán necesarios los conductores, ni ningún otro por inteligente que sea. Potencialmente al menos, todos los demás pueden ser sustituidos por máquinas que hagan sus trabajos mejor, más rápido, las 24 horas del día sin descansar, y a un coste mucho más bajo.
  ¿Ciencia-ficción? En muchos casos son realidades que llevan tiempo, e incluso mucho tiempo, en el mercado (que se lo pregunten a las hilanderas y tejedores). En otros están a punto de llegar (el coche sin conductor), y en otros más tal vez nos muramos de viejos sin llegar a verlo.
  El futuro ya se verá, puede ser así o asá. Yo solo digo una cosa. Si se aplica (mejor dicho, cuando se aplique) hasta las últimas consecuencias la tecnología ACTUAL (sin contar los prototipos actuales), medio país se iría al paro. Desde cajeras de McDonalds hasta bancarios, pasando por profesores y vendedores de todo tipo, etc, etc, etc.
  Ahora añádele las tecnologías actualmente en desarrollo. ¿Absolutamente todas van a ser inviables? No, muchas van a ser un éxito. Y lo que venga después, tecnologías futuras que ahora ni se ha empezado su desarrollo.
  Por eso, cuanto antes empecemos la adaptación, tanto mejor. La gran mayoría de la gente nunca serán programadores, ingenieros, científicos, ni jefes, por la sencilla razón de que no se necesitan tantos.
  Hay que concienciarse de que cada vez vamos a trabajar menos, y de que mucha gente no llegará a trabajar ni un solo día de su vida.
  - Antonio Castro - 5 agosto 2015 - 06:57
    Nos olvidamos de un tema muy importante y es la velocidad.
    La velocidad máxima, del cochecito de Google creo que es de unos 40 km/ por hora. A esa velocidad para un viaje en carretera se te haría eterno y lo más importante, los problemas de esa conducción los trasladas a los coches que circulan a más velocidad y que tendrían que estar atentos a tus maniobras. Es una forma tramposa de simplificar el problema de la conducción. También los aviones tienen conducción autónoma y se llama piloto automático, pero solo se usa en condiciones perfectamente controladas.
    Aumentar la velocidad y conllevaría un aumento exponencial de la problemática de la conducción autónoma que para velocidades lentas tiene una indudable ventaja. El conductor es un ordenador y no se duerme de puro aburrimiento.
    Otro problema sería el tema de permisos homologaciones etc. Para homologar un coche autónomo habría que proporcionar los fuentes y los test del software serían muy costosos. Es imposible asegurar la ausencia de bugs en programación y estamos hablando de vidas humanas.
    - Krigan - 5 agosto 2015 - 12:13
      Hasta hace poco, los prototipos de Google eran modelos de coche preexistentes perfectamente capaces de ir a velocidades muy superiores. La limitación de los 40 Km/h es para el último modelo, desarrollado desde cero por Google, y de orientación claramente urbana.
      En cualquier caso, Google cree posible sacarlo en el 2020:
      http://www.ibtimes.com/google-inc-says-self-driving-car-will-be-ready-2020-1784150
      Google lleva en esto 6 años, ha acumulado un millón de millas de experiencia sin conductor, incluyendo calles difíciles, y cree que en 5 años podrá lanzarlo.
      ¿No crees que como mínimo existe la posibilidad de que sea así?
#017
Muadib - 4 agosto 2015 - 22:00
Una nota de prensa que avala lo presentado, solo que bajo la optica contraterrorista;
http://lat.wsj.com/articles/SB12376768664121744772704581148854145010300?tesla=y
#018
Luis J. Salvatierra - 7 agosto 2015 - 00:42
Hola Enrique, me gustaría responderte a la pregunta «Las máquinas aprenden. Sí, pero… ¿de qué?». Intentaré responderte lo mejor que pueda, siendo aún estudiante.
En Machine Learning existen varios tipos de aprendizaje, Supervisado y No Supervisado. Uno de los problemas que comentas es el siguiente:
https://en.wikipedia.org/wiki/Inductive_bias
A un modelo supervisado es necesario definirle una serie de características o «features», con ello ya tienes un «problema» de bias, ya que es el usuario el que define las características de una observación, y con ello condicionas al modelo desde el principio.
En el ejemplo de la policía sería algo así:
– Observación: una persona en la calle
– Característica/feature 1: altura
– Feature 2: raza o color
– Feature 3: estilo ropa
– etc…
Varias de las posibles «soluciones» son, el uso de modelos No Supervisados y/o Deep Learning, o un modelo Supervisado con un «experto» que defina esas características/features.
https://en.wikipedia.org/wiki/Deep_learning
«One of the promises of deep learning is replacing handcrafted features with efficient algorithms for unsupervised or semi-supervised feature learning and hierarchical feature extraction».
Ahora mismo está muy de moda los modelos «Deep Learning», que es básicamente un tipo de Red Neuronal.
Existen más problemas de bias, y hay procedimientos para intentar no caer en ello. Al fin y al cabo lo que interesa es que tu modelo sea lo más certero posible, para ello, evitar problemas de bias es necesario.
Como dato curioso, las Redes Neuronales datan de los años 40-50, y si se han puesto de moda ahora, será por algo, ¿no? :)
Un cordial saludo.