100 Milioni di Token di Memoria AI: Addio RAG?
MSA arriva a 100 milioni di token di memoria con un modello da 4B parametri. Scopri come funziona questa innovazione che rende il RAG obsoleto.

L'AI non sostituirà il tuo lavoro. Ma un'AI con 100 milioni di token di memoria potrebbe cambiare il modo in cui lavoriamo tutti. Sto parlando di un ordine di grandezza che si avvicina alla capacità di memoria a lungo termine del cervello umano.
Ho passato le ultime settimane a seguire gli sviluppi nella ricerca su memoria e contesto nei modelli linguistici. Quando ho letto il paper su MSA (Memory Sparse Attention), pubblicato da ricercatori cinesi, ho capito che stavamo assistendo a un salto tecnologico significativo. Non si tratta solo di numeri più grandi: è un cambio di paradigma nel modo in cui i modelli gestiscono le informazioni.
Perché 100 Milioni di Token Cambiano Tutto
Per contestualizzare: Claude e GPT-4 gestiscono circa 1 milione di token. Gemini si ferma lì. La maggior parte dei modelli di frontiera non supera questa soglia. MSA arriva a 100 milioni di token con un modello di soli 4 miliardi di parametri, superando le performance di sistemi 20 volte più grandi.
Ma il dato più interessante viene dalle scienze cognitive. I ricercatori stimano che la capacità di memoria umana a lungo termine sia nell'ordine di 10^9 bit. Assumendo una densità semantica di 3-5 bit per token, questo corrisponde a circa 200-300 milioni di token. Con 100 milioni siamo già nella stessa scala di grandezza della memoria umana.
Cosa significa in pratica? Significa agenti AI che possono lavorare in autonomia per mesi senza perdere il filo. Significa analizzare codebase di milioni di righe di codice senza frammentare il contesto. Significa elaborare librerie di documenti che oggi richiederebbero sistemi RAG complessi e spesso imprecisi.
I Tre Paradigmi di Memoria (e Perché Sono Tutti Limitati)
Fino ad oggi, per dare memoria a un modello AI avevi tre opzioni, ciascuna con compromessi pesanti:
- Memoria nei parametri : addestri il modello sui dati e la conoscenza finisce nelle sinapsi artificiali. Alta precisione, ma capacità limitata e necessità di riaddestramento continuo per aggiornare le informazioni.
- Storage esterno (RAG) : crei un database vettoriale, l'agente recupera le informazioni quando servono. Il problema? La pipeline non è differenziabile, le performance dipendono dalla qualità del retrieval, e separi artificialmente ragionamento da recupero informazioni.
- Stati latenti (contesto nativo) : usi direttamente la finestra di contesto del modello. Funziona, ma sei limitato a 1 milione di token e il costo computazionale cresce in modo quadratico.
Nel mio lavoro con Make e Claude ho sperimentato tutti e tre gli approcci. Il RAG è potente ma fragile: se la query di ricerca non è perfetta, il sistema fallisce. Il contesto nativo è elegante ma costoso e limitato. MSA promette di risolvere entrambi i problemi.
Come Funziona MSA: Una Biblioteca Dentro il Modello
Il trucco geniale di MSA è che la memoria non vive in un database esterno, ma dentro il modello stesso. Immagina una biblioteca dove il bibliotecario non deve cercare fisicamente ogni libro, ma sa già dove si trova ogni informazione.
Il processo funziona in quattro passaggi:
1. Compressione intelligente : i documenti vengono spezzettati in blocchi di 64 token, compressi con tecniche di KV Cache compression e trasformati in etichette compatte facili da scansionare.
2. Routing differenziabile : un layer di neuroni impara durante l'addestramento a selezionare i top-16 documenti più rilevanti per ogni query, ignorando tutto il resto. Non usa regole fisse o semplice similarità coseno: impara a cercare.
3. Document-wise Rope : ogni documento riparte da posizione 1 nell'encoding posizionale. Invece di numerare i token da 1 a 100 milioni (numeri che il modello non ha mai visto in training), ogni blocco usa sempre numeri piccoli e familiari. Geniale nella sua semplicità.
4. Memoria ibrida CPU/GPU : le etichette compatte stanno in VRAM (scrivania veloce), i contenuti completi in RAM (magazzino capiente). Solo i 16 documenti selezionati vengono caricati in GPU al momento del bisogno.
Questa architettura riduce la complessità da quadratica a lineare. Aumenti il contesto, ma il costo cresce in modo proporzionale, non esponenziale. E tutto funziona su due GPU A800: niente infrastrutture miliardarie.
MSA vs RAG: Non È Solo un RAG Potenziato
Qui c'è un punto che ho trovato illuminante. MSA non è semplicemente un sistema RAG più efficiente. È un cambio di paradigma.
Il RAG tradizionale è come uno studente che consulta appunti esterni durante l'esame: legge, cerca di capire al volo, risponde. MSA è uno studente che ha già studiato: i documenti sono tradotti nel linguaggio dei neuroni, imbeddati nella struttura del modello. Quando serve un'informazione, il modello riaccende i neuroni giusti, come accedere a un ricordo.
Nei miei test con sistemi RAG basati su Make e OpenRouter, ho visto quanto sia fragile il retrieval quando le query sono ambigue o il chunking non è ottimale. MSA elimina questa fragilità perché il modello comprende i documenti in fase di ingestione, non di query.
E poi c'è il multi-hop reasoning. Per domande complesse, MSA cerca a tappe: "Chi è il padre di Eric?" → trova che è Bill Watts → "Quando è nato Bill Watts?" → 5 maggio 1939. Tutto internamente, senza passaggi esterni, senza errori di propagazione.
Cosa Cambia per gli Agenti AI
Con 100 milioni di token di memoria, si aprono applicazioni che oggi sembrano fantascienza:
- Digital Twins : il paper cita esplicitamente la possibilità di duplicare digitalmente un cervello umano. Con interfacce neurali tipo Neuralink e 200-300 milioni di token, potresti teoricamente fare uno snapshot della tua memoria e trasferirla in un modello AI.
- Agenti autonomi a lungo termine : un agente può lavorare per mesi senza perdere contesto o dimenticare task precedenti. Niente più context rot dopo qualche settimana di operazioni.
- Codebase giganti : analizzare milioni di righe di codice senza frammentare il contesto in sessioni separate. Ho lavorato con Claude Code su progetti di medie dimensioni: già lì la gestione del contesto è critica. Con MSA questa limitazione scompare.
- Documentazione e knowledge base : ingerire interi manuali tecnici, librerie di documentazione, archivi storici senza bisogno di sistemi RAG complessi.
Ma resta aperta una domanda che mi accompagna ogni volta che vedo questi progressi: stiamo costruendo strumenti che usiamo noi, o stiamo costruendo sistemi che un giorno useranno noi?
Perché i Cinesi Continuano a Innovare Così Tanto
Un pattern che ho notato negli ultimi mesi: molte delle innovazioni più efficienti arrivano da laboratori cinesi. MSA viene dall'Università di Pechino. Non è un caso.
I ricercatori cinesi hanno meno accesso alle GPU Nvidia di ultima generazione, lavorano con vincoli hardware più stringenti, devono inventarsi soluzioni che funzionino con risorse limitate. E proprio questi vincoli spingono verso architetture più intelligenti, non solo più grandi.
È un promemoria utile per chi lavora come me in un contesto di risorse limitate: i vincoli forzano la creatività. Non serve sempre l'hardware più potente, serve l'architettura più intelligente.
I Numeri che Contano
MSA mantiene accuratezza superiore al 90% anche su 100 milioni di token, dove altri modelli degradano pesantemente. È 16% più preciso del RAG standard. Supera sistemi da 235 miliardi di parametri con un modello da 4 miliardi. E funziona su due GPU.
Il degrado di qualità rispetto a contesti più piccoli è solo del 9%: irrisorio se consideri che stai moltiplicando per 100 la capacità di memoria.
La vera innovazione non è solo la scala, ma l'efficienza. Arrivare a 100 milioni di token con costo computazionale lineare invece che quadratico significa rendere accessibile una tecnologia che altrimenti richiederebbe data center interi.
Se stai costruendo agenti AI o sistemi di automazione che richiedono memoria persistente, tieni d'occhio MSA. Non so quando sarà disponibile in produzione, ma il paper dimostra che la direzione è chiara: la memoria a lungo termine non è più un problema da aggirare con workaround, ma una feature nativa dei modelli di prossima generazione.
E quando questi modelli diventeranno commodity, la domanda non sarà più "cosa può fare un agente AI?", ma "cosa non può fare?". Forse è il momento di iniziare a pensare a quella domanda.