En 2017, un grupo de investigadores de Google publicó un artículo con un título aparentemente anodino, «Attention is all you need«, que acabó provocando una auténtica revolución. Aquella idea aplicada en aquel momento a la traducción automática, que una red neuronal podía aprender prestando «atención» a distintas partes de una secuencia ampliando la ventana de contexto, acabó dando lugar a los transformers, la arquitectura que hoy sostiene a ChatGPT, Claude, Gemini y prácticamente toda la inteligencia artificial generativa moderna.
Ocho años después, los mismos laboratorios (con distintos protagonistas, porque lo de Google nunca ha sido la retención de talento) vuelven a poner sobre la mesa un concepto que podría ser igual de disruptivo. Su nuevo trabajo, titulado «Nested Learning: the illusion of deep learning architectures«, parte de una afirmación provocadora: lo que llamamos «aprendizaje profundo» podría no ser profundo en absoluto.
Según los autores, las redes neuronales no aprenden porque tengan muchas capas, sino porque cada una de esas capas, y los algoritmos que las entrenan, operan a distintas velocidades. En realidad, lo que tenemos no es una pila de transformaciones, sino un sistema de aprendizaje anidado: procesos que se ajustan mutuamente a diferentes escalas temporales, como si unas partes del modelo pensaran más rápido y otras más despacio.
El resultado es que lo que veíamos como «profundidad» no era más que una ilusión: una consecuencia de tener aprendizajes de distinta frecuencia interactuando entre sí. Si esta hipótesis es correcta, el futuro de la inteligencia artificial podría no consistir en añadir más capas o más parámetros, sino en diseñar sistemas que aprendan a varios ritmos a la vez.
Además, Google resalta algo crucial: el paradigma de «aprendizaje anidado» no sólo redefine la arquitectura, sino que aborda de frente uno de los grandes talones de Aquiles de los modelos actuales: el olvido catastrófico (catastrophic forgetting). Subrayan que los modelos tradicionales tratan arquitectura y algoritmo de optimización como dos piezas separadas, cuando en su propuesta ambas se fusionan en una única jerarquía de optimización. Esa fusión da pie a lo que llaman un sistema de memorias «en continuo», donde diferentes módulos se actualizan a ritmos distintos (es decir, aprendizaje rápido, medio y lento conviviendo simultáneamente). En ese sentido, el paper define la llamada «arquitectura HOPE», que es tanto un experimento de ingeniería como un manifiesto: si queremos que las máquinas aprendan de forma más parecida a nosotros, no sólo entrenar una vez y congelar, sino aprender, olvidar, reaprender, adaptarse, entonces tenemos que diseñar para múltiples cadencias de cambio, no sólo para capas más profundas.
Otra idea interesante del análisis es que los modelos actuales viven atrapados en un «presente eterno»: procesan la entrada con unos pesos fijos, pueden adaptarse mínimamente dentro de la ventana de contexto, y después lo olvidan todo. El aprendizaje ocurre antes de desplegar el modelo, y a partir de ahí, apenas cambia. El enfoque de nested learning propone romper con esa limitación dotando al sistema de varios ritmos de aprendizaje: algunos módulos que reaccionan de forma inmediata, otros que se ajustan a medio plazo y otros que evolucionan más lentamente. Esa superposición de velocidades permitiría no solo responder al estímulo del momento, sino también construir memoria duradera y modificar su propio comportamiento con el tiempo, una capacidad mucho más cercana a la forma en que aprendemos los humanos.
Es ahí donde la comparación con el cerebro humano se vuelve inevitable: nuestro sistema nervioso también funciona en capas de tiempo superpuestas: reflejos que reaccionan en milisegundos, aprendizajes que se consolidan durante el sueño, hábitos que se forman tras meses de repetición, y rasgos de personalidad que cambian lentamente a lo largo de los años. La inteligencia, en última instancia, podría no ser una cuestión de tamaño o de profundidad, sino de ritmo: de cómo se integran procesos de aprendizaje rápido y lento en una misma estructura.
Google parece estar apostando por esa idea. Al igual que los transformadores redefinieron la noción de «atención», el nested learning podría redefinir la noción misma de «arquitectura». Si los algoritmos y los optimizadores dejan de ser piezas separadas y pasan a formar un sistema vivo que se modifica a sí mismo de forma continua, estaremos mucho más cerca de un modelo que aprende como nosotros: no reentrenando cada vez desde cero, sino reajustando continuamente su memoria y su conducta.
Por supuesto, el enfoque está todavía en pañales. Las demostraciones del artículo son conceptuales, y falta por ver si la idea escala a los gigantescos modelos actuales. Pero la historia enseña que cuando Google lanza una teoría sobre cómo debería aprender una máquina, conviene prestarle atención: la última vez que lo hizo, cambió el rumbo de toda la industria.
Si el nested learning acaba confirmándose, podríamos estar ante un nuevo cambio de paradigma: uno en el que la inteligencia artificial deja de parecerse a una máquina que calcula, y empieza a parecerse más a un cerebro que evoluciona.
This article is also openly available in English on Medium, «The next AI frontier: systems that learn like our brains, fast, slow and continuously«


Pensar Rápido, Pensar Despacio.
Cómo se me parece a lo que decían Daniel Kahneman en su libro.
Un poco como funciona nuestro cerebro con la memoria a corto, media y largo plazo. Si es que ya está todo inventado… a nivel biológico.
Al final descubriremos que la mejor manera de entrenarle es enseñarle a hablar 2 años, mates y lengua y naturaleza durante 6 años, mates avanzadas, filosofía, ciencias naturales, física, quimica e historia otros 4… y habrá hecho la ESO y será una IA adolescente. Igual hasta no razona ni tan mal.
Cachondeo aparte, me parece interesante el deep nesting pero reconozco que no lo he entendido ni leyendolo varias veces
Ahora sólo falta que haga eso consumiendo un puñado de azúcar como el cerebro humano, entre 0.3 y 0.5 kWh/día.
Muy bueno !!
El otro día, hablábamos de China y de su discutida filosofía para acaparar la industria.
Hoy viene esta noticia, que no hace otra cosa que confirmar, que en parte China hace, lo que la dejan hacer.
https://www.xataka.com/magnet/pregunta-donde-esta-caza-europeo-100-000-millones-respuesta-sencilla-atascado-pista-salida
Pero a burocracia, no nos ganan….
Las mejores y más brillantes soluciones en ni trabajo, se me ocurrían en la ducha mañanera, sin tener yo consciencia de haberme acostado dando vueltas al asunto.
Indudablemente durante el sueño se produce en nuestro cerebro una reordenación de los temas del día que suponen un nivel mas lento de de la inteligencia, ¿Algo así pretenden conseguir en el «aprendizaje profundo»?
Tengo el vago recuerdo de una sola vez haberme acostado pensando en cómo solucionar un problema, y despertarme con la solución. Pero fue una sola vez. Nunca en la ducha.
En mi caso, mayormente me pasa que la solución me viene mientras estoy haciendo/viendo/leyendo otras cosas y sin buscarlo me llega el momento «¡eureka!».
Las personas tenemos el sesgo de darle forma y una explicación a las cosas que nos ocurren, pero a posteriori, pero en mi caso puedo ver como «eso» en lo que estaba ocupado en ese momento tiene una conexión fuerte (pero no evidente a priori) con lo que me tenía días pensando como solucionar.
Yo tengo el vago recuerdo, de alguien que dice que sus ideas surgieron en la ducha, cuando en estas líneas reconocía, que sus mejores ideas, era “robadas” a sus compañeros al lado de la maquina de café… en fin… XDDD cosas de la hemeroteca… (al servicio de todos en estas líneas)
No tenemos un modelo matemático para el pensamiento humano tan siquiera. Las comparaciones con él son meras narrativas sustentadas en analogías sin rigor alguno.
Una cosa es manejar el lenguaje con habilidad usando algoritmos y matemáticas y otra es pensar. El lenguaje es una convención. Una proyección esencialmente lineal en el tiempo de procesos que ni siquiera sabemos si responden a procesos temporales.
Por no hablar de que para poder establecer comparaciones, el consumo energético de la IA generativa tendría que reducirse drásticamente.
#goingOnIdeas
«La inteligencia, en última instancia, podría no ser una cuestión de tamaño o de profundidad, sino de ritmo: de cómo se integran procesos de aprendizaje rápido y lento en una misma estructura.» (EDans).
Volvemos a marear la perdiz en el uso de. los términos, que tratan de ser científicos (lo no científico es un asunto del arte). Uno muy actual, sobre todo en el mundo de la educación/domesticación, es suplantar integración por inclusión… básicamente por el simple hecho de que las mate hacen pupita y nunca llegamos a entender el concepto de derivada e integral…. aparte de pillar con alfileres la inclusión en un conjunto de elementos…
Ahora puede tocar con profundidad, emparentado con el concepto de «fortaleza» para darle sentido de profundidad a un concepto científico determinado… cuando, a fin de cuentas, solo es usar como «acto» (fuerza) algo que proporciona su sentido de «potencia» a una energía (trabajo)… lo que nos puede llevar a no entender realmente lo que es la potencia de un máquina (trabajo/tiempo…. o ,en menos latín, sus capacidad real de usar la energía). Es decir, lo que es «en sentido profundo» (o «fuerte» cuando no estemos precisamente en el campo de la Dinámica, ya que ahí aparece el concepto físico tan mal usado de fuerza)…
En fin, solo quería desfogara mostrando que algunos no entendemos de programación, pero nos vamos defendiendo con el uso de los circuitos neuronales de nuestro cerebro (lo que podemos llamar mente humana), y que nada tienen que ver con los usados con ese nombre en el mundo de la informática profunda (por ahora).
Lo que nos lleva a decir superresumido que pocos asumieron realmente el concepto de ROM y RAM, y, aún menos el de algoritmo. Algo similar a lo que sucedió con los nativos digitales.
Porque, en el fondo, no quieren saber como funciona la mente humana, y por lo tanto aquella burda equiparación de cerebro electrónico y humano, era confundir los marcianitos verdes con nada que algún día (seguro) nos visitan como auténticos aliens (o los visitemos nosotros).
Volvemos al inicio y decimos que de tamaño no hay problema (a nosotros nos sobra, por ahora, de ahí la mediocridad rampante… el físico, porque el virtual es infinito). Y que la profundidad no es algo que se extienda «hacia abajo», ya que en el universo no hay ni abajo ni arriba… incluso digamos que no tiene que ser una longitud (UNA sola dimensión) en sentido estricto… es simplemente que la cadena de acontecimientos o sucesos sea lo suficientemente larga (incluido el tiempo como dijimos)… Y por ahí estaría esa cadena de procesos de «pensamiento», natural o artificial… Y, si no se entiende lo siento, pero el ADN lo tenemos todos en nuestras celulitas corporales. Además el cine ha trabajado bastante este tipo de cosas.
A modo de conclusión : NPI de lo que es la IH, ¿qué narices vamos a saber de la IA? Pajas mentales nada más, vengan firmadas por técnicos megasiliconados de Google o el porquero del Elon…
Una aclaración sobre «las pajas» de los técnicos… no es peyorativo (¿Qué haríamos sin ellas), solo indica que son un sucedáneo a los avances de verdad.
Lo de Elon sí es un poco peyorativo (por él, no por el porquero).
Ademas de mediocres, seamos pensadores honrados.
Gracias a crear «cerebros digitales» aprenderemos al fin cómo es el nuestro antes que estudiando directamente nuestro propio cerebro. Si finalmente B es igual que A, es porque A es igual que B. Me gusta.
Lo cierto es que superamos en velocidad a los animales mas veloces, pero no lo hicimos con un mecanismo parecido sino con la rueda. Volamos más rápido que las águilas, pero no con alas sino con turbo reactores. Nadamos mas veloz que los defines pero no con aletas sino con hélices.
Decir que penamos mejor que los humanos, pero con copias de cerebros, me parece que no esta bien encaminado, parece que la cosa va de chips.
Nada tiene que ver eso con lo que he dicho. Un saludo!
Manda cojones, que sin saber (porque aún a día de hoy, no lo sabemos) como funciona nuestro cerebro, pretendamos imitarlo… ese A es B y B es A y aparece C… en fin…
Me remitiría a Xaquin en sus deducciones que en cierta manera son acertadas, pero como no hay manera que haga una disgregación, entre lo enteramente científico y “matarse a pajas” (algo muy dado en muchos de sus comentarios), pues allá vamos… XDD
Leído, y digo leído, porque alguno parece no haberlo hecho, estoy como Benji. O no me entero de nada, o estoy sacando deducciones fuera de lugar…
Esas tres (o cuatro) velocidades, se refieren al modo de entrenamiento?
O se refieren a la respuesta final (la que nos llega a nuestras manos).
Lo que deduzco, es que es lo primero, y por tanto, los modelos seguirán siendo igual de estocásticos… mas precisos? Quizás. Pero no alcanzo a ver la diferencia. Seguirá siendo un “algo” estadístico.
Y si, consideraría un logro, que esas respuestas, requirieran de cuanta menos energía, mejor. Todo lo demás, es bazofia, o debería serlo para quienes tanto atañen que si el cambio climático, que si la energía verde (que ya se ve que no, que planean esas BIG que sea nuclear), etc… O para unas cosas… si y para otras… no?