Machine learning, seguridad y fases de madurez

Una entrada en MIT Tech Review, «The rare form of machine learning that can spot hackers who have already broken in«, describe el desarrollo de algoritmos de machine learning para su uso en ciberseguridad, pero no de la manera tradicional tratando de detectar patrones de ataque a partir de ataques anteriores o conocidos, sino centrándose en identificar a atacantes que ya han conseguido entrar en el sistema, y reconociéndolos para evitar que puedan llevar a cabo acciones como robo de información.

Para ello, utiliza algoritmos de aprendizaje no supervisado que compiten entre sí para detectar posibles comportamientos anómalos. En lugar de centrarse en aprendizaje a partir de ejemplos históricos de problemas de seguridad anteriores, el aprendizaje no supervisado busca anomalías sin necesidad de que un humano le diga qué buscar, lo que le permite examinar infinidad de ejemplos de comportamiento dentro de la red corporativa y detectar aquellos que suponen patrones anómalos, que no pueden ser fácilmente adscritos al desarrollo de tareas habituales. Así, el movimiento habitual de empleados a través de la red corporativa, la consulta de información o el acceso a diversos recursos de la compañía podrían ser identificados como comportamientos estándar y exentos de riesgo, mientras que los patrones de un intruso tratando de recopilar información de una manera específica podría reconocerse como un intento de ataque, y ser puesto en cuarentena antes de que lograse salir de la compañía con dicha información.

La gestión del riesgo de diversos tipos y la detección de anomalías son algunos de los temas en los que el desarrollo del machine learning está mostrando un avance más prometedor, y en esta entrada lo utilizo simplemente como un ejemplo. La combinación de distintos tipos de aprendizaje permite establecer patrones a detectar como sospechosos, en el caso del aprendizaje supervisado, o no hacerlo y dejar que sean los algoritmos, sin supervisión humana, los que detecten aquellos patrones que se salgan de lo habitual. La gama de posibilidades que ofrece es enormemente variada, y las inversiones y avances que se hagan hoy sin duda se convertirán en las ventajas competitivas de mañana.

A medida que las compañías comienzan a pensar en machine learning como una posibilidad a su alcance que no precisa necesariamente de la creación de equipos de caros científicos de datos, sino que puede ser llevado a cabo con herramientas relativamente sencillas y hasta visuales, ideas como esta se convierten en muestrarios que pueden hacer surgir casos de uso y despertar el interés de aquellos que no han probado aún este tipo de tecnologías. Dos entradas recientes también de MIT Tech Review inciden en el mismo tipo de esfuerzo de divulgación, con dos diagramas de flujo sencillísimos y hasta divertidos (al menos en cuanto a concepto de «humor geek» :-) para entender, primero, si cuando nos hablan de un proyecto nos están hablando o no de inteligencia artificial, y las diferencias de concepto entre varios de los distintos tipos de algoritmos de machine learning.

¿En qué situación está tu compañía con respecto as machine learning? Es importante entender que el trabajo más importante de este tipo de proyectos está en sus inicios, en las fases de preparación de los datos para su análisis. Si la definición de objetivos puede suponer en torno a un 10% del esfuerzo dedicado a la mayoría de los proyectos de machine learning, esta segunda fase de preparación de los datos puede llegar a suponer hasta un 80% de ese esfuerzo. A partir de ahí, la fase de creación de modelos y obtención de predicciones resulta mucho más accesible y sencilla: las herramientas para ello se están haciendo cada vez más visuales, sencillas y fáciles de manejar. La fase que antes era característica de los científicos de datos, de perfiles difíciles de atraer y retener, ha reducido su complejidad hasta representar aproximadamente un 5% del esfuerzo de un proyecto. Finalmente, la fase final, la de evaluación de los resultados obtenidos, tiende a consumir el 5% restante.

¿Dónde están las compañías? Una clasificación razonable es la que las divide entre un estado de mera exploración, en el que simplemente han curioseado algunas herramientas, han intentado jugar con algún dataset y han leído o evaluado algo al respecto. Un segundo nivel es ya el de adopción temprana, en el que existen ya modelos que llevan en producción en torno a los dos años; mientras el tercer escalón de sofisticación se reserva para compañías que ya tienen modelos en producción desde hace cinco años o más, con todo lo que ello conlleva de acumulación de experiencia y capitalización de resultados. ¿En dónde ves a tu compañía?

This post is also available in English in my Medium page, «When it comes to using machine learning, which category does your company fall into?»

#001
menestro - 21 noviembre 2018 - 15:23
Extracto del texto. Menciona Alpha Go.
«Some experts believe that machine learning and deep learning will eventually get us to AGI with enough data, but most would agree there are big missing pieces and it’s still a long way off. AI may have mastered Go, but in other ways it is still much dumber than a toddler.»
No aconsejaría a una compañía que gastará el presupuesto en un desarrollo sin el soporte de un producto ya comercializado y probado solo por ponerse la camiseta. A no ser que quiera hacer PR.
Lo que se ha popularizado como ‘Científico de datos’ son diversos perfiles profesionales, no sólo la visualización de datos, ni el uso de herramientas especializadas, que requieren de un bagaje y formación para su uso.
(Nos podríamos reír con la teoría del punto gordo estadístico en R y el margen de error, compitiendo denonadamente con la cocina del CIS)
_
#002
menestro - 21 noviembre 2018 - 15:30
(* «Denodadamente», que el teclado táctil es escurridizo)
#003
Krigan - 22 noviembre 2018 - 01:09
Entre el aprendizaje supervisado, el no supervisado, y el reforzado, tenemos ya 3 técnicas de aprendizaje de las máquinas que dan resultados cada una en diferentes tipos de problemas. Hay grandes carencias en la IA actual, la principal que las máquinas siguen siendo incapaces de aprender de unos pocos ejemplos, necesitan un gran número de ellos, pero cabe preguntarse si nuestra propia inteligencia no es sino cosa de media docena de técnicas de aprendizaje, estas 3 y otras 2 o 3 más que queden por descubrir. Y más potencia de cálculo, claro, que la de nuestro cerebro sigue siendo muy superior.
#004
Santi - 22 noviembre 2018 - 08:41
Me llama mucho la atención cómo conviven sin aparente escrutinio crítico por un lado la admiración por la potencialidad y desarrollo de las nuevas herramientas y aplicaciones de base tecnológica (como el machine learning) y por el otro el uso abusivo que de ellas hacen los estamentos de poder (por ejemplo la partitocracia), como si no hubiera una inevitable relación entre unas y otras.
Una cosa es ser paranoico y conspirativo, la otra es ser neutral y complacentemiente ingenuo.