Modulo 1 · Capitolo 3· Le basi

Tipi di AI: una mappa per orientarsi

Machine Learning, Deep Learning, AI Generativa: la mappa completa per non perdersi tra le sigle

7 min di letturafondamentimachine learningdeep learningLLMmultimodale

Ultimo aggiornamento: 1 marzo 2026

Tipi di AI: una mappa per orientarsi

Se hai letto qualche articolo sull'AI, ti sarai imbattuto in una giungla di sigle e termini: ML, DL, NLP, LLM, GPT, AI generativa... Sembra un linguaggio alieno. In realtà la struttura è più semplice di quanto sembri — basta avere la mappa giusta.

La matrioska dell'AI

Pensa a una matrioska russa, quelle bambole che si incastrano una dentro l'altra.

Intelligenza Artificiale è la bambola più grande. È il campo generale: qualsiasi sistema che simula un comportamento intelligente. Include tutto, dalle regole scritte a mano negli anni '80 ai modelli moderni.

Machine Learning è dentro l'AI. È il sottoinsieme in cui le macchine imparano dai dati senza essere programmate esplicitamente. Non tutto l'AI è Machine Learning (puoi fare AI con regole scritte a mano), ma oggi quasi tutto l'AI interessante lo è.

Deep Learning è dentro il Machine Learning. Usa reti neurali con molti strati (da qui "deep" — profondo). È la tecnologia dietro il riconoscimento di immagini, la traduzione, e i modelli di linguaggio.

AI Generativa è un'applicazione del Deep Learning che crea contenuti nuovi: testo, immagini, audio, video, codice. ChatGPT, Midjourney, DALL-E sono tutti AI generativa.

Quindi: AI generativa ⊂ Deep Learning ⊂ Machine Learning ⊂ Intelligenza Artificiale.

I tre stili di apprendimento

Nel Machine Learning ci sono tre approcci fondamentali. La differenza sta in come il modello impara.

Supervised Learning (apprendimento supervisionato)

L'analogia: uno studente con un insegnante. Per ogni esercizio, l'insegnante dà la risposta corretta. Lo studente impara a collegare le domande alle risposte.

Come funziona: dai al modello dati etichettati — cioè esempi con la risposta corretta già allegata. "Questa foto è un gatto" (etichetta: gatto). "Questa email è spam" (etichetta: spam). Il modello impara la relazione tra i dati e le etichette.

Dove lo trovi: filtri spam, riconoscimento facciale, diagnosi mediche da immagini, previsione dei prezzi, rilevamento di frodi.

Unsupervised Learning (apprendimento non supervisionato)

L'analogia: un esploratore senza mappa. Arriva in un territorio sconosciuto e deve trovare da solo i pattern, i gruppi, le strutture nascoste.

Come funziona: dai al modello dati senza etichette. Nessuno gli dice cosa è cosa. Il modello trova da solo le strutture nascoste nei dati: raggruppa clienti simili, identifica anomalie, scopre relazioni tra variabili.

Dove lo trovi: segmentazione clienti (Amazon che raggruppa utenti con gusti simili), rilevamento anomalie (la banca che identifica transazioni sospette), compressione dati.

Reinforcement Learning (apprendimento per rinforzo)

L'analogia: un videogiocatore. Nessuno gli spiega le regole — prova azioni, riceve punti (ricompensa) o perde vite (punizione), e impara per tentativi quale strategia funziona meglio.

Come funziona: il modello (chiamato "agente") interagisce con un ambiente, compie azioni e riceve un feedback numerico (premio o penalità). Con milioni di tentativi, impara la strategia ottimale.

Dove lo trovi: robotica (robot che imparano a camminare), giochi (AlphaGo di Google che ha battuto il campione mondiale di Go), RLHF nei modelli di linguaggio (il processo con cui ChatGPT impara a dare risposte che piacciono agli umani), auto a guida autonoma.

I modelli di linguaggio (LLM)

I Large Language Models sono i protagonisti dell'AI attuale. Sono modelli di Deep Learning addestrati su enormi quantità di testo per capire e generare linguaggio naturale.

"Large" si riferisce alle dimensioni: miliardi o migliaia di miliardi di parametri. "Language Model" perché il loro compito fondamentale è modellare il linguaggio — prevedere quale parola viene dopo.

I più conosciuti:

GPT-4o, GPT-4.1 — di OpenAI, il modello dietro ChatGPT
Claude — di Anthropic, noto per essere attento alla sicurezza e alle sfumature
Gemini — di Google, integrato nell'ecosistema Google
Llama — di Meta, open source e liberamente utilizzabile
Mistral — startup francese, modelli efficienti e performanti

La cosa affascinante degli LLM è che sono addestrati per fare una cosa sola — prevedere la parola successiva — ma da questo compito apparentemente semplice emergono capacità sorprendenti: riassumere, tradurre, ragionare, scrivere codice, risolvere problemi. Nessuno ha programmato queste capacità esplicitamente — sono emerse dall'addestramento su scala massiva.

Cosa sono davvero GPT, BERT e Transformer

Questi nomi li vedi ovunque. Ecco cosa significano.

Transformer è un'architettura — cioè il design del modello. È stata inventata da Google nel 2017 ed è alla base di praticamente tutti i modelli di linguaggio moderni. La sua innovazione chiave è il meccanismo di "attenzione": permette al modello di guardare tutte le parole di una frase contemporaneamente e capire quali sono importanti per il contesto.

GPT sta per "Generative Pre-trained Transformer". È il nome che OpenAI ha dato ai suoi modelli. Si legge così: è un Transformer, pre-addestrato su tanti testi, che genera contenuti. GPT-3, GPT-4, GPT-4o sono versioni successive dello stesso approccio.

BERT sta per "Bidirectional Encoder Representations from Transformers". È un modello di Google pensato per capire il testo (non per generarlo). È quello che fa funzionare Google Search quando capisce cosa intendi anche se scrivi male la query.

La differenza chiave: GPT genera testo (scrive), BERT comprende testo (legge). I modelli moderni come GPT-4 fanno entrambe le cose, ma la distinzione originale è utile per capire la storia.

AI multimodale: non solo testo

I primi LLM lavoravano solo con il testo. I modelli multimodali possono lavorare con più tipi di dati contemporaneamente.

Cosa significa in pratica:

Puoi dare a GPT-4o una foto e chiedergli di descriverla
Puoi chiedere a Gemini di analizzare un grafico
Puoi dare a Claude un PDF e fargli domande sul contenuto
Puoi chiedere a GPT-4o di generare testo e audio contemporaneamente

Le modalità principali sono: testo, immagini, audio, video e codice. Un modello è "multimodale" quando ne gestisce più di una.

Questo è un cambiamento enorme. Significa che l'AI non è più limitata alle parole — può vedere, sentire e interpretare il mondo in modi sempre più simili a come facciamo noi. Un medico può caricare una radiografia e chiedere un parere. Un designer può caricare un wireframe e farsi generare il codice. Un insegnante può analizzare i compiti degli studenti con foto.

I modelli open source

Non tutta l'AI è chiusa dietro abbonamenti. Esiste un ecosistema vibrante di modelli open source — modelli i cui pesi (i parametri) sono pubblici e chiunque può scaricare, usare e modificare.

I più importanti:

Llama (Meta) — la famiglia di modelli open source più influente
Mistral — modelli europei efficienti e performanti
Gemma (Google) — versioni aperte dei modelli Google
Phi (Microsoft) — modelli piccoli ma sorprendentemente capaci
Qwen (Alibaba) — modelli cinesi open source

Perché è importante? Perché permette a chiunque — ricercatori, startup, aziende, appassionati — di usare, studiare e migliorare modelli AI senza dipendere dalle big tech. Puoi far girare un modello Llama sul tuo computer, senza inviare dati a nessun server.

Il dibattito open vs closed è uno dei più accesi nel mondo AI: chi sostiene l'open source dice che democratizza la tecnologia, chi lo critica dice che rende l'AI potente accessibile anche a chi potrebbe usarla male.

In pratica 🎯

Fai questo esperimento per toccare con mano le differenze tra modelli:

Scegli una domanda complessa, ad esempio: "Quali sono i pro e contro del lavoro da remoto per un'azienda con 50 dipendenti?"
Fai la stessa domanda a tre chatbot diversi:
- ChatGPT (GPT-4o)
- Claude (Claude)
- Gemini (Gemini)
Confronta le risposte: lunghezza, struttura, tono, profondità, punti trattati

Noterai che ogni modello ha un "carattere" diverso: uno è più sintetico, un altro più dettagliato, un altro ancora più cauto. Questo perché sono stati addestrati su dati diversi, con obiettivi diversi, e con RLHF basato su preferenze umane diverse.

Non esiste il "migliore in assoluto" — esiste il più adatto al tuo bisogno specifico.

Risorse correlate

📖 Glossario: Machine Learning, Deep Learning, Supervised Learning, Unsupervised Learning, Reinforcement Learning, LLM, Transformer, GPT, BERT, Multimodale, Open Source, Parametri, Attenzione
📄 Doc: ChatGPT, Claude, Gemini
🔧 Tool: ChatGPT, Claude, Gemini, HuggingFace

Non hai capito qualcosa?

Chiedi a un chatbot AI. Abbiamo preparato il prompt per te con il contesto di questa lezione.

Si aprirà in una nuova scheda con il prompt pronto

PrecedenteCome impara un'AI

ProssimoPrompt: parlare con l'AI