Modulo 1 · Capitolo 3· Le basi
Tipi di AI: una mappa per orientarsi
Machine Learning, Deep Learning, AI Generativa: la mappa completa per non perdersi tra le sigle
Ultimo aggiornamento: 1 marzo 2026
Tipi di AI: una mappa per orientarsi
Se hai letto qualche articolo sull'AI, ti sarai imbattuto in una giungla di sigle e termini: ML, DL, NLP, LLM, GPT, AI generativa... Sembra un linguaggio alieno. In realtà la struttura è più semplice di quanto sembri — basta avere la mappa giusta.
La matrioska dell'AI
Pensa a una matrioska russa, quelle bambole che si incastrano una dentro l'altra.
Intelligenza Artificiale è la bambola più grande. È il campo generale: qualsiasi sistema che simula un comportamento intelligente. Include tutto, dalle regole scritte a mano negli anni '80 ai modelli moderni.
Machine Learning è dentro l'AI. È il sottoinsieme in cui le macchine imparano dai dati senza essere programmate esplicitamente. Non tutto l'AI è Machine Learning (puoi fare AI con regole scritte a mano), ma oggi quasi tutto l'AI interessante lo è.
Deep Learning è dentro il Machine Learning. Usa reti neurali con molti strati (da qui "deep" — profondo). È la tecnologia dietro il riconoscimento di immagini, la traduzione, e i modelli di linguaggio.
AI Generativa è un'applicazione del Deep Learning che crea contenuti nuovi: testo, immagini, audio, video, codice. ChatGPT, Midjourney, DALL-E sono tutti AI generativa.
Quindi: AI generativa ⊂ Deep Learning ⊂ Machine Learning ⊂ Intelligenza Artificiale.
I tre stili di apprendimento
Nel Machine Learning ci sono tre approcci fondamentali. La differenza sta in come il modello impara.
Supervised Learning (apprendimento supervisionato)
L'analogia: uno studente con un insegnante. Per ogni esercizio, l'insegnante dà la risposta corretta. Lo studente impara a collegare le domande alle risposte.
Come funziona: dai al modello dati etichettati — cioè esempi con la risposta corretta già allegata. "Questa foto è un gatto" (etichetta: gatto). "Questa email è spam" (etichetta: spam). Il modello impara la relazione tra i dati e le etichette.
Dove lo trovi: filtri spam, riconoscimento facciale, diagnosi mediche da immagini, previsione dei prezzi, rilevamento di frodi.
Unsupervised Learning (apprendimento non supervisionato)
L'analogia: un esploratore senza mappa. Arriva in un territorio sconosciuto e deve trovare da solo i pattern, i gruppi, le strutture nascoste.
Come funziona: dai al modello dati senza etichette. Nessuno gli dice cosa è cosa. Il modello trova da solo le strutture nascoste nei dati: raggruppa clienti simili, identifica anomalie, scopre relazioni tra variabili.
Dove lo trovi: segmentazione clienti (Amazon che raggruppa utenti con gusti simili), rilevamento anomalie (la banca che identifica transazioni sospette), compressione dati.
Reinforcement Learning (apprendimento per rinforzo)
L'analogia: un videogiocatore. Nessuno gli spiega le regole — prova azioni, riceve punti (ricompensa) o perde vite (punizione), e impara per tentativi quale strategia funziona meglio.
Come funziona: il modello (chiamato "agente") interagisce con un ambiente, compie azioni e riceve un feedback numerico (premio o penalità). Con milioni di tentativi, impara la strategia ottimale.
Dove lo trovi: robotica (robot che imparano a camminare), giochi (AlphaGo di Google che ha battuto il campione mondiale di Go), RLHF nei modelli di linguaggio (il processo con cui ChatGPT impara a dare risposte che piacciono agli umani), auto a guida autonoma.
I modelli di linguaggio (LLM)
I Large Language Models sono i protagonisti dell'AI attuale. Sono modelli di Deep Learning addestrati su enormi quantità di testo per capire e generare linguaggio naturale.
"Large" si riferisce alle dimensioni: miliardi o migliaia di miliardi di parametri. "Language Model" perché il loro compito fondamentale è modellare il linguaggio — prevedere quale parola viene dopo.
I più conosciuti:
- GPT-4o, GPT-4.1 — di OpenAI, il modello dietro ChatGPT
- Claude — di Anthropic, noto per essere attento alla sicurezza e alle sfumature
- Gemini — di Google, integrato nell'ecosistema Google
- Llama — di Meta, open source e liberamente utilizzabile
- Mistral — startup francese, modelli efficienti e performanti
La cosa affascinante degli LLM è che sono addestrati per fare una cosa sola — prevedere la parola successiva — ma da questo compito apparentemente semplice emergono capacità sorprendenti: riassumere, tradurre, ragionare, scrivere codice, risolvere problemi. Nessuno ha programmato queste capacità esplicitamente — sono emerse dall'addestramento su scala massiva.
Cosa sono davvero GPT, BERT e Transformer
Questi nomi li vedi ovunque. Ecco cosa significano.
Transformer è un'architettura — cioè il design del modello. È stata inventata da Google nel 2017 ed è alla base di praticamente tutti i modelli di linguaggio moderni. La sua innovazione chiave è il meccanismo di "attenzione": permette al modello di guardare tutte le parole di una frase contemporaneamente e capire quali sono importanti per il contesto.
GPT sta per "Generative Pre-trained Transformer". È il nome che OpenAI ha dato ai suoi modelli. Si legge così: è un Transformer, pre-addestrato su tanti testi, che genera contenuti. GPT-3, GPT-4, GPT-4o sono versioni successive dello stesso approccio.
BERT sta per "Bidirectional Encoder Representations from Transformers". È un modello di Google pensato per capire il testo (non per generarlo). È quello che fa funzionare Google Search quando capisce cosa intendi anche se scrivi male la query.
La differenza chiave: GPT genera testo (scrive), BERT comprende testo (legge). I modelli moderni come GPT-4 fanno entrambe le cose, ma la distinzione originale è utile per capire la storia.
AI multimodale: non solo testo
I primi LLM lavoravano solo con il testo. I modelli multimodali possono lavorare con più tipi di dati contemporaneamente.
Cosa significa in pratica:
- Puoi dare a GPT-4o una foto e chiedergli di descriverla
- Puoi chiedere a Gemini di analizzare un grafico
- Puoi dare a Claude un PDF e fargli domande sul contenuto
- Puoi chiedere a GPT-4o di generare testo e audio contemporaneamente
Le modalità principali sono: testo, immagini, audio, video e codice. Un modello è "multimodale" quando ne gestisce più di una.
Questo è un cambiamento enorme. Significa che l'AI non è più limitata alle parole — può vedere, sentire e interpretare il mondo in modi sempre più simili a come facciamo noi. Un medico può caricare una radiografia e chiedere un parere. Un designer può caricare un wireframe e farsi generare il codice. Un insegnante può analizzare i compiti degli studenti con foto.
I modelli open source
Non tutta l'AI è chiusa dietro abbonamenti. Esiste un ecosistema vibrante di modelli open source — modelli i cui pesi (i parametri) sono pubblici e chiunque può scaricare, usare e modificare.
I più importanti:
- Llama (Meta) — la famiglia di modelli open source più influente
- Mistral — modelli europei efficienti e performanti
- Gemma (Google) — versioni aperte dei modelli Google
- Phi (Microsoft) — modelli piccoli ma sorprendentemente capaci
- Qwen (Alibaba) — modelli cinesi open source
Perché è importante? Perché permette a chiunque — ricercatori, startup, aziende, appassionati — di usare, studiare e migliorare modelli AI senza dipendere dalle big tech. Puoi far girare un modello Llama sul tuo computer, senza inviare dati a nessun server.
Il dibattito open vs closed è uno dei più accesi nel mondo AI: chi sostiene l'open source dice che democratizza la tecnologia, chi lo critica dice che rende l'AI potente accessibile anche a chi potrebbe usarla male.
In pratica 🎯
Fai questo esperimento per toccare con mano le differenze tra modelli:
- Scegli una domanda complessa, ad esempio: "Quali sono i pro e contro del lavoro da remoto per un'azienda con 50 dipendenti?"
- Fai la stessa domanda a tre chatbot diversi:
- Confronta le risposte: lunghezza, struttura, tono, profondità, punti trattati
Noterai che ogni modello ha un "carattere" diverso: uno è più sintetico, un altro più dettagliato, un altro ancora più cauto. Questo perché sono stati addestrati su dati diversi, con obiettivi diversi, e con RLHF basato su preferenze umane diverse.
Non esiste il "migliore in assoluto" — esiste il più adatto al tuo bisogno specifico.
Risorse correlate
- 📖 Glossario: Machine Learning, Deep Learning, Supervised Learning, Unsupervised Learning, Reinforcement Learning, LLM, Transformer, GPT, BERT, Multimodale, Open Source, Parametri, Attenzione
- 📄 Doc: ChatGPT, Claude, Gemini
- 🔧 Tool: ChatGPT, Claude, Gemini, HuggingFace
Non hai capito qualcosa?
Chiedi a un chatbot AI. Abbiamo preparato il prompt per te con il contesto di questa lezione.
Si aprirà in una nuova scheda con il prompt pronto