Gli agenti AI dimenticano. Ogni volta che un assistente di programmazione perde di vista un thread di debug, oppure un agente di analisi dati re-ingesta lo stesso contesto, il team ne paga il prezzo in termini di latenza, costi in token e processi fragili. La soluzione tradizionale – espandere la finestra di contesto o aggiungere più RAG – è diventata sempre più costosa e non funziona in modo affidabile. Per risolvere questo problema, ricercatori di Mind Lab e di diverse università hanno proposto delta-mem, una tecnica efficiente che comprime le informazioni storiche del modello in una matrice dinamicamente aggiornata senza modificare il modello stesso. Il modulo aggiunge solo lo 0.12% dei parametri del modello di base – rispetto al 76.40% di un'alternativa principale – e supera questa nel benchmarking su test di memoria.

La sfida della memoria lunga

La soluzione convenzionale è semplicemente inondare la finestra di contesto con tutti i dati disponibili. Jingdi Lei, coautore dello studio, ha spiegato a VentureBeat che i sistemi attuali trattano la memoria come un problema di gestione del contesto. «Sia che espandiamo la finestra di contesto, sia che recuperiamo più documenti tramite RAG», ha detto Lei, «questi approcci sono utili e rimarranno importanti, ma diventano sempre più costosi e fragili quando gli agenti devono operare in interazioni lunghe e multi-step, e non funzionano davvero come la memoria umana, dal momento che assomigliano di più a un’analisi documentale».

Nel contesto aziendale, il collo di bottiglia non è solo se il modello riesca ad accedere alla storia, ma se riesca riutilizzarla in modo efficiente, continuo e con bassa latenza. I meccanismi di attenzione standard incorrono in un costo computazionale quadrato che cresce con la lunghezza della sequenza. Inoltre, espandere la finestra di contesto non garantisce che il modello effettivamente ricordi le informazioni. I modelli spesso soffrono di degradazione contestuale o rotture contestuali mentre sono oberati di più informazioni (e spesso tra loro conflittuali), anche se teoricamente supportano un milione di token.

Ricercatori sottolineano che sono necessari meccanismi avanzati di memoria in grado di rappresentare in modo compatto le informazioni storiche e mantenerle dinamicamente nell'arco delle interazioni. Le soluzioni esistenti hanno compromessi pesanti e generalmente si adattano a tre paradigmi:

    • Memoria testuale: conserva la cronologia come testo iniettato nel contesto — limitato dalle finestre e soggetto a perdita di informazioni quando comprimibile.
    • Memoria esterna (RAG): codifica e recupera da moduli esterni — aggiunge latenza, complessità di integrazione e potenziale di allineamento errato con il modello principale.
    • Parametrica: codifica la memoria nei pesi del modello attraverso adattatori — statica dopo l’addestramento, incapace di adattarsi a nuove informazioni in tempo reale.

Come funziona delta-mem

Per ottenere una memoria compatta e aggiornabile in tempo reale, delta-mem comprime le interazioni precedenti degli agenti in uno “stato online della memoria associativa” (OSAM). Questo stato è mantenuto come una matrice di dimensioni fisse che conserva le informazioni storiche mentre il linguaggio sottostante rimane congelato. Nel contesto delle operazioni aziendali, questo equivale a risolvere ingorghi operativi. Un assistente di programmazione persistente potrebbe, ad esempio, dover ricordare «convenzioni del progetto, passaggi recenti nel debug, preferenze dell'utente, o decisioni intermedie in corso di un flusso di lavoro». Analogamente, un agente di analisi dati potrebbe dover «mantenere lo stato del compito, ipotesi, e osservazioni precedenti durante l'iterazione su molteplici chiamate a strumenti».

Delta-mem non richiede di recuperare e riusare ripetutamente tratti di testo rilevanti da questi compiti. Invece, la matrice di delta-mem offre un modo a bassa sovrapposizione per portare avanti gli stati utili delle interazioni all'interno del calcolo diretto del modello.

Durante la fase di generazione, il sistema non riscopre i segmenti di testo per aggiungerli all'input. Invece, lo stato nascosto corrente del modello LLM di base viene proiettato sulla matrice per recuperare memorie passate. Questa operazione estrae segnali associativi contestualmente rilevanti da delta-mem. Questi segnali vengono poi trasformati in correzioni numeriche che vengono applicate ai calcoli del modello. Questo fa si che il modello ragioni meglio durante l'inferenza senza modificare i suoi parametri interni.

Dopo ogni interazione, delta-mem aggiorna lo stato online utilizzando «un apprendimento basato sulla regola delta». Quando arrivano nuovi dati, lo stato precedente predice i valori di attenzione che dovrebbero risultare. Confronta quindi questa previsione con il valore reale e corregge la matrice in base alla discrepanza.

Meccanismi di aggiornamento e strategie

Questo meccanismo di aggiornamento si basa su una «regola delta controllata». In pratica, il modulo ha diversi «cacciaviti» che regolano quanto della memoria passata mantenerlo e quanto della nuova memory applicare. Questo processo di correzione dell'errore e di dimenticanza controllata permette alla matrice di evolversi nel tempo, restando ferma sulle associazioni storiche stabili senza essere distratta dal rumore breve.

I ricercatori hanno esaminato tre strategie per determinare quando e come avviene l’aggiornamento della matrice:

    • Scrittura di stato per token: cattura cambiamenti a livello fine-grained ma è vulnerabile al rumore a breve termine.
    • Scrittura di stato per sequenza: media i token all'interno di segmenti di messaggio, lisciando gli aggiornamenti a discapito di alcuni dettagli localizzati.
    • Scrittura a multi-stato: decompone la memoria in sottostati per diversi tipi di informazione, come fatti o progresso del compito.

Delta-mem in azione

I ricercatori hanno valutato delta-mem su tre modelli LLM di base: Qwen3-8B, Qwen3-4B-Instruct e SmolLM3-3B. Hanno configurato il framework utilizzando una matrice compatta 8x8. Il sistema è stato testato su benchmark di capacità generiche, tra cui HotpotQA, GPQA-Diamond e IFEval. È stato valutato anche su task a memoria intensiva, come LoCoMo, che testa la memoria di conversazioni a lungo termine e Memory Agent Bench, che valuta la capacità di conservazione, recupero, dimenticanza selettiva e apprendimento in tempo reale per interazioni estese.

Il framework ha avuto successo nel superare le baselines. Sul modello Qwen3-4B-Instruct, la variante di scrittura a stato per token ha raggiunto una media del 51.66%, facilmente superando la base congelata a 46.79% e la baseline più potente