Modulo 2 · Capitolo 5· Come funziona

Dentro un modello di linguaggio

Token, contesto, temperatura e allucinazioni: cosa succede davvero quando chatti con un'AI

8 min di letturatecnicoLLMtokenallucinazioni

Ultimo aggiornamento: 1 marzo 2026

Dentro un modello di linguaggio

Hai usato ChatGPT o Claude. Hai scritto un prompt, hai ricevuto una risposta. Ma cosa è successo in mezzo? Cosa succede davvero quando premi invio? Questo capitolo apre il cofano e ti fa guardare dentro — senza bisogno di una laurea in informatica.

L'AI non legge parole

La prima cosa da sapere è controintuitiva: un modello di linguaggio non legge parole. Legge token.

Un token è un pezzo di testo — può essere una parola intera, parte di una parola, uno spazio, un segno di punteggiatura. Il modello spezza tutto quello che scrivi in questi frammenti prima di elaborarlo.

Alcuni esempi:

"Ciao" → 1 token
"intelligenza artificiale" → 2-3 token
"L'apprendimento" → 3 token ("L", "'", "apprendimento" oppure suddiviso diversamente)
Un emoji 🎯 → 1-2 token
Un carattere cinese → spesso 1 token

In inglese le cose sono più efficienti: una parola comune è spesso 1 token. In italiano e altre lingue, le parole tendono a essere spezzate in più token perché i modelli sono stati addestrati prevalentemente su testo inglese.

Perché è importante? Perché i modelli ragionano, ricordano e generano in unità di token, non di parole. Quando un modello ha un limite di "128.000 token", non significa 128.000 parole — in italiano sono circa 80.000-90.000 parole.

La finestra di contesto: la memoria a breve termine

Quando chatti con un'AI, il modello non ha una memoria permanente della conversazione. Ha una finestra di contesto (context window) — una quantità fissa di token che può "vedere" contemporaneamente.

Pensa a una scrivania. Puoi metterci sopra un certo numero di fogli. Quando la scrivania è piena, per aggiungere un foglio nuovo devi toglierne uno vecchio. La finestra di contesto funziona così: tutto quello che ci sta dentro — il tuo prompt, la conversazione precedente, le istruzioni di sistema — viene elaborato. Quello che non ci sta, non esiste per il modello.

Le dimensioni variano enormemente:

GPT-3 (2020): 4.096 token — circa 3.000 parole, meno di un racconto breve
GPT-4 (2023): 128.000 token — circa un libro di 300 pagine
Claude (2025): fino a 200.000 token — un romanzo intero
Gemini (2025): fino a 1.000.000 di token — diversi libri

Una finestra più grande significa che il modello può considerare più informazioni contemporaneamente: conversazioni più lunghe, documenti più grandi, contesti più ricchi.

Ma attenzione: più grande non significa migliore in tutto. I modelli tendono a prestare meno attenzione alle informazioni che stanno "nel mezzo" di un contesto molto lungo — un fenomeno chiamato "lost in the middle". Le informazioni all'inizio e alla fine della finestra vengono ricordate meglio.

Temperatura: il cursore tra preciso e creativo

Quando un modello genera testo, per ogni token sceglie tra migliaia di opzioni possibili. La temperatura è un parametro che controlla quanto questa scelta è prevedibile o casuale.

Temperatura bassa (0 - 0.3): il modello sceglie quasi sempre il token più probabile. Il risultato è preciso, coerente, ripetibile — ma anche prevedibile e a volte piatto. Ideale per: risposte fattuali, codice, analisi, traduzione.

Temperatura media (0.5 - 0.7): un buon equilibrio tra precisione e varietà. Il modello si prende qualche libertà ma resta coerente. Ideale per: scrittura professionale, email, riassunti.

Temperatura alta (0.8 - 1.0+): il modello esplora opzioni meno probabili. Il risultato è più creativo, sorprendente, vario — ma anche meno prevedibile e potenzialmente incoerente. Ideale per: brainstorming, scrittura creativa, generazione di idee.

L'analogia: immagina un musicista jazz. A temperatura bassa suona lo spartito nota per nota. A temperatura media improvvisa restando nel tema. A temperatura alta fa free jazz — a volte geniale, a volte caos.

La maggior parte dei chatbot non ti fa scegliere la temperatura direttamente (è preimpostata), ma alcuni tool e le API ti danno il controllo. Se usi l'API di OpenAI o Anthropic, puoi impostarla come parametro.

Come genera il testo: un token alla volta

Ecco il processo, passo per passo:

Ricevi il prompt. Tutto il testo nella finestra di contesto viene elaborato.
Calcola le probabilità. Per la posizione successiva, il modello calcola una probabilità per ogni token possibile nel suo vocabolario (decine di migliaia di opzioni).
Sceglie un token. In base alla temperatura, sceglie un token dalla distribuzione di probabilità.
Aggiunge il token. Il token scelto viene aggiunto al testo e la finestra di contesto si aggiorna.
Ripete. Il processo ricomincia dal punto 2, ora con un token in più nel contesto.

Un dettaglio importante: il modello genera un token alla volta, in sequenza. Quando vedi la risposta apparire parola per parola nella chat, non è un effetto estetico — è letteralmente il modello che genera un pezzo alla volta. Ogni token dipende da tutti quelli precedenti.

Questo significa che il modello non "sa" in anticipo come finirà la sua risposta. Non ha un piano. Genera il prossimo token, poi il prossimo, poi il prossimo — e il risultato emerge da questa catena di scelte. È un po' come scrivere un racconto una parola alla volta senza poter tornare indietro.

Perché l'AI "inventa" cose: le allucinazioni

Le allucinazioni sono uno dei problemi più importanti dell'AI attuale. Succede quando il modello genera informazioni false presentandole come vere, con totale sicurezza.

Esempi reali:

Citare paper accademici che non esistono (con autori, titoli e date inventati)
Descrivere eventi storici mai accaduti
Inventare statistiche plausibili ma false
Attribuire citazioni a persone che non le hanno mai dette

Perché succede? Perché il modello non "sa" le cose nel modo in cui le sai tu. Non ha un database di fatti da consultare. Genera testo statisticamente plausibile — e a volte il testo più plausibile non corrisponde alla realtà. Il modello non distingue tra "vero" e "sembra vero".

È come un attore molto bravo che improvvisa: sa esattamente come dovrebbe suonare una risposta corretta, ma non sempre sa qual è la risposta corretta.

Come gestire le allucinazioni

Non puoi eliminarle completamente, ma puoi ridurle drasticamente:

Verifica sempre i fatti critici. Se l'AI ti dà una statistica, una citazione o un dato preciso, controllalo. Soprattutto per informazioni mediche, legali e finanziarie.

Chiedi le fonti. Quando l'AI cita qualcosa, chiedi "Da dove viene questa informazione?". Se non sa rispondere in modo specifico, è probabile che abbia inventato.

Usa modelli con accesso al web. Perplexity, ChatGPT con browsing attivo, Claude con web search possono verificare le informazioni in tempo reale e citare le fonti.

Sii specifico nel prompt. Prompt vaghi producono più allucinazioni. Più contesto dai, più il modello resta ancorato alla realtà.

Chiedi al modello di ammettere i dubbi. Aggiungi al prompt: "Se non sei sicuro di qualcosa, dillo esplicitamente". I modelli moderni sono abbastanza bravi a dire "non sono certo" se glielo permetti.

I token speciali: le istruzioni nascoste

Quando usi ChatGPT o Claude, il tuo prompt non è l'unica cosa che il modello vede. Prima del tuo messaggio c'è un system prompt — un set di istruzioni che definiscono il comportamento del modello.

Il system prompt dice al modello cose come: "Sei un assistente utile. Rispondi in modo sicuro. Non generare contenuti dannosi. Se non sai qualcosa, dillo." Ogni chatbot ha il suo system prompt, che determina la "personalità" del modello.

Questo è il motivo per cui ChatGPT e Claude, pur usando modelli potenti, rispondono in modo diverso: hanno istruzioni di sistema diverse che guidano il loro comportamento.

Quando usi le API, puoi scrivere il tuo system prompt e personalizzare completamente il comportamento del modello — una capacità potentissima per chi sviluppa applicazioni.

Il vocabolario del modello

Ogni modello ha un vocabolario fisso — un set di token che conosce. Per GPT-4, il vocabolario ha circa 100.000 token. Per i modelli più recenti, può essere più grande.

Se scrivi qualcosa che non è nel vocabolario (una parola inventata, un nome raro), il modello la spezza in pezzi più piccoli che conosce. Ecco perché a volte i modelli fanno fatica con parole inventate o nomi esotici — li trattano come una sequenza di frammenti senza significato.

Un effetto pratico: i modelli sono più bravi con le lingue su cui hanno visto più dati. L'inglese funziona meglio dell'italiano perché il vocabolario è ottimizzato per l'inglese e i dati di addestramento in inglese sono molto più abbondanti.

In pratica 🎯

Prova il tokenizer di OpenAI per vedere come l'AI spezza il testo:

Vai su platform.openai.com/tokenizer
Scrivi una frase in italiano, es: "L'intelligenza artificiale sta cambiando il mondo"
Guarda come viene spezzata in token (i colori evidenziano i token diversi)
Ora scrivi la stessa frase in inglese: "Artificial intelligence is changing the world"
Confronta il numero di token: l'italiano ne usa di più

Poi prova questo con ChatGPT o Claude:

Chiedi: "In che anno è stata scoperta la penicillina?" (risposta precisa: 1928)
Chiedi: "Qual è il nome del terzo paper pubblicato da Alexander Fleming nel 1929?" (qui potrebbe allucinare)
Se ti dà una risposta sicura al punto 2, chiedi le fonti e verificale

Questo ti mostra la differenza tra fatti ben rappresentati nei dati di addestramento e domande dove il modello è tentato di inventare.

Risorse correlate

📖 Glossario: Token, Context Window, Temperatura, Allucinazione, System Prompt, Inferenza, Vocabolario
📄 Doc: ChatGPT (parametri API), Claude (context window)
🔧 Tool: OpenAI Tokenizer, ChatGPT, Claude

Non hai capito qualcosa?

Chiedi a un chatbot AI. Abbiamo preparato il prompt per te con il contesto di questa lezione.

Si aprirà in una nuova scheda con il prompt pronto

PrecedentePrompt: parlare con l'AI

ProssimoImmagini, audio e video: l'AI multimediale