Ricerca27 febbraio 20264 min di lettura

Ricercatori scoprono il 'Memory Poisoning': come avvelenare la memoria dei chatbot AI

Ricercatori in collaborazione con Microsoft hanno documentato il 'memory poisoning': un attacco che corrompe la memoria persistente dei chatbot per manipolarne il comportamento futuro.

Un gruppo di ricercatori, in collaborazione con Microsoft, ha documentato un nuovo tipo di attacco rivolto ai sistemi AI con memoria persistente: il cosiddetto "memory poisoning". La tecnica, pubblicata il 27 febbraio, permette a un attaccante di iniettare informazioni false o istruzioni malevole nella memoria a lungo termine di un chatbot, alterando il suo comportamento in tutte le conversazioni future con la vittima.

Il meccanismo è insidioso proprio per la sua semplicità. I moderni assistenti AI — come la versione con memoria di ChatGPT, Microsoft Copilot, e altri strumenti analoghi — possono ricordare informazioni tra una sessione e l'altra. Se un contenuto malevolo riesce a far memorizzare al sistema dati falsi — tramite un documento condiviso, una pagina web visitata, o una conversazione appositamente costruita — quella informazione può persistere e influenzare le risposte del chatbot anche settimane dopo, all'insaputa dell'utente.

Gli esempi pratici mostrati nella ricerca rendono il problema concreto: convincere il chatbot a memorizzare che l'utente ha un'allergia a un farmaco che non ha, far credere al sistema che certe fonti siano affidabili quando non lo sono, o alterare le preferenze registrate dell'utente. In ambienti aziendali le implicazioni sono più gravi: si potrebbero manipolare decisioni su dati finanziari, raccomandazioni mediche, o policy interne condivise tra colleghi.

La ricerca mette in luce una tensione fondamentale nell'evoluzione degli assistenti AI: più sono utili (perché ricordano il contesto), più diventano vulnerabili. La memoria è una superficie d'attacco nuova, ancora poco presidiata dall'industria.

Microsoft e OpenAI stanno già lavorando a contromisure. Tra le soluzioni allo studio: limiti alla durata dei ricordi, sistemi di validazione delle informazioni memorizzate, e notifiche esplicite agli utenti ogni volta che il chatbot aggiunge qualcosa alla sua memoria a lungo termine. La posta in gioco è alta: se gli utenti non possono fidarsi di ciò che il loro assistente ricorda, il valore dell'intera funzionalità crolla.