@AlanDaitch: Google acaba de lanzar esta BO...

1

Google acaba de lanzar esta BOMBA atómica de paper, quizás comparable con el que comenzó la revolución de IA.
No exagero: explica por qué ChatGPT, Gemini,etc tienen el mismo problema: no pueden aprender después de su entrenamiento. La solución que proponen es MUY elegante: 🧵

2

El problema: todos los LLMs sufren de “amnesia digital”. Pueden acceder a lo inmediato (tu conversación actual) y al pasado lejano (su pre-entrenamiento). Pero no pueden consolidar nada nuevo en memoria de largo plazo.

3

Los investigadores miraron cómo resuelve esto el cerebro humano y encontraron la clave: el cerebro procesa información en MÚLTIPLES ESCALAS TEMPORALES simultáneamente.
No es solo “profundidad” de capas: es frecuencia de actualización a diferentes velocidades.

4

La revelación que cambia todo: lo que llamamos “deep learning” es solo UNA dimensión (apilar capas).
Existe otra ortogonal que ignorábamos: NIVELES de optimización anidados operando a diferentes velocidades.

El aprendizaje real necesita ambas.

5

Imaginate tu cerebro como un edificio. Hasta ahora en IA solo construíamos edificios MÁS ALTOS (más pisos/capas). Pero resulta que existe otra dimensión: el TIEMPO.
Algunos pisos se renuevan cada día, otros cada mes, otros cada año. Ambas dimensiones son necesarias.

6

Descubrieron algo increíble revisando cómo funcionan las redes neuronales: los “optimizadores” (las herramientas que entrenan los modelos) en realidad SON TAMBIÉN modelos de memoria.

7

Pensalo así: cuando entrenás una IA, creés que estás haciendo UNA cosa. Pero en realidad estás corriendo múltiples procesos de aprendizaje anidados como muñecas rusas, cada uno operando a su propia velocidad.
Simplemente no lo veíamos hasta ahora.

8

Suena complejo, pero explica por qué los LLMs no pueden aprender después del entrenamiento: tienen memoria súper rápida (la conversación) y memoria congelada (lo aprendido en pre-training).

Pero les falta TODO el espectro del medio—las memorias que se consolidan gradualmente.

9

La solución que proponen: “Nested Learning”.
En vez de una memoria rápida y una lenta, creá un ESPECTRO CONTINUO de memorias.
Como el cerebro: recordás lo que desayunaste (rápido), lo que hiciste el mes pasado (medio), tu infancia (lento).
Un gradiente, no un switch.

10

Crearon HOPE: un modelo con este sistema de memoria en espectro. Y la parte más loca: aprende a modificarse a sí mismo mientras funciona.
No solo “recuerda mejor”—aprende cómo debe aprender. Como cuando aprendés a estudiar más eficientemente mientras estudiás.

11

Los resultados son buenos, pero lo revolucionario es la idea: durante décadas construimos IA solo pensando en “más capas, más grande”.

Este paper dice “che, existe otra dimensión completa que ignoramos: el tiempo y las frecuencias de actualización”.

12

Si funciona, esto cambia:
•Modelos que aprenden continuamente de tus conversaciones sin olvidar
•IA que mejora mientras la usás, no solo antes de lanzarla
•Una nueva forma de pensar diseño: no solo tamaño, sino escalas temporales

Al ser Google, creo que VA a funcionar

13

Link a la fuente: abehrouz.github.io/files/NL.pdf

Si te gustó, seguime para seguir aprendiendo sobre IA sin humo 🤓

14

¿Cuán grande es esto según Google? Esto es lo que twiteó uno de los tipos más grosos ayer 😅

View Tweet

@AlanDaitch: Google acaba de lanzar esta BO...

Actions

What You Can Do