Modulo 2 · Capitolo 6· Come funziona

Immagini, audio e video: l'AI multimediale

Come l'AI genera e comprende immagini, audio e video — e cosa puoi farci oggi

8 min di letturatecnicoimmaginiaudiovideomultimodale

Ultimo aggiornamento: 1 marzo 2026

Immagini, audio e video: l'AI multimediale

Fino a poco fa, l'AI era sinonimo di testo. Chatbot, traduttori, riassuntori — tutto parole. Oggi l'AI vede, disegna, parla, ascolta e crea video. L'era multimediale dell'AI è già qui, e cambia le regole del gioco.

Come l'AI genera immagini

Quando chiedi a Midjourney di creare "un gatto astronauta su Marte al tramonto", il modello non cerca in un archivio di immagini. Ne crea una nuova, che non è mai esistita prima. Come?

Il metodo dominante oggi si chiama diffusion (diffusione). Il concetto è sorprendentemente elegante:

Fase di addestramento: prendi milioni di immagini. Per ognuna, aggiungi rumore progressivamente — come se la foto diventasse sempre più sfocata fino a diventare puro rumore statico, come la neve di un televisore senza segnale. Il modello impara a invertire questo processo: dato il rumore, ricostruire l'immagine.

Fase di generazione: parti da rumore puro (pixel casuali) e chiedi al modello di "togliere il rumore" passo dopo passo, guidato dal tuo prompt testuale. A ogni passaggio l'immagine diventa più definita, più coerente, finché emerge un'immagine completa dal nulla.

L'analogia: è come uno scultore che parte da un blocco di marmo informe (il rumore) e toglie materiale fino a far emergere la statua (l'immagine). Il prompt è il progetto dello scultore.

I protagonisti della generazione di immagini

Midjourney. Noto per la qualità estetica. Produce immagini artistiche, atmosferiche, con un'identità visiva riconoscibile. Funziona via Discord o tramite il sito web. È a pagamento.

DALL-E (OpenAI). Integrato in ChatGPT. Buono per immagini fotorealistiche e illustrazioni. Comodo perché lo usi direttamente nella chat — descrivi cosa vuoi e lui genera.

Stable Diffusion / Flux. Open source. Puoi farlo girare sul tuo computer, personalizzarlo, addestrarlo su stili specifici. Più tecnico ma più flessibile. Gratis.

Ideogram. Eccellente con il testo nelle immagini — un punto debole storico degli altri modelli. Se ti serve un'immagine con scritte leggibili, è la scelta migliore.

La qualità è migliorata in modo impressionante. Le immagini generate nel 2022 avevano dita strane e occhi inquietanti. Quelle del 2025 sono spesso indistinguibili da foto reali. Il progresso è stato brutale.

Il prompt per le immagini

Scrivere prompt per la generazione di immagini è diverso da scrivere prompt per il testo. Conta molto di più la descrizione visiva: composizione, luce, stile, colori, punto di vista.

Un prompt vago come "un cane" ti dà un risultato generico. Un prompt dettagliato produce qualcosa di specifico:

"A golden retriever sitting on a wooden dock at sunset, warm orange light, reflection on calm lake water, shot from low angle, photorealistic, shallow depth of field, Canon EOS R5 style"

Alcuni principi:

Soggetto chiaro: cosa c'è nell'immagine
Ambiente: dove, che luce, che ora del giorno
Stile: fotorealistico, illustrazione, acquerello, cyberpunk, minimal
Composizione: angolazione, distanza, fuoco
Dettagli tecnici: tipo di fotocamera, lente, profondità di campo (per risultati fotorealistici)

I prompt negativi sono altrettanto utili: "no text, no watermark, no blurry, no extra fingers" aiutano a evitare artefatti comuni.

Text-to-Speech: l'AI che parla

I modelli Text-to-Speech (TTS) convertono testo scritto in voce parlata. La tecnologia è esplosa: le voci sintetiche di oggi sono praticamente indistinguibili da quelle umane.

ElevenLabs è il leader attuale. Può clonare una voce da pochi secondi di audio e generare discorsi completi in quella voce, con emozioni, pause e inflessioni naturali. Supporta decine di lingue, incluso l'italiano.

OpenAI TTS è integrato in ChatGPT (la modalità vocale). Puoi letteralmente parlare con l'AI e lei ti risponde a voce, in tempo reale, con un tono conversazionale naturale.

Google TTS e Amazon Polly sono più orientati agli sviluppatori, con API per integrare voci sintetiche nelle applicazioni.

I casi d'uso sono enormi: audiolibri generati automaticamente, doppiaggio in tempo reale, assistenti vocali, accessibilità per non vedenti, podcast automatici.

Il rovescio della medaglia: la stessa tecnologia può essere usata per creare deepfake audio — falsificare la voce di qualcuno in modo convincente. Torneremo su questo nel capitolo sull'etica.

Speech-to-Text: l'AI che ascolta

Il processo inverso: convertire audio parlato in testo scritto. È la tecnologia dietro la dettatura del telefono, i sottotitoli automatici di YouTube, e la trascrizione delle riunioni.

Whisper di OpenAI è il modello open source di riferimento. Supporta quasi 100 lingue, funziona offline, ed è sorprendentemente accurato anche con accenti, rumori di fondo e sovrapposizioni di voci.

Otter.ai è un servizio popolare per trascrivere riunioni in tempo reale, con identificazione dei parlanti.

Il salto di qualità rispetto a pochi anni fa è enorme. La dettatura del 2018 faceva errori imbarazzanti. Quella del 2025 è più accurata di molti trascrittori umani.

Video generati dall'AI

La generazione di video è l'ultima frontiera. Fino al 2023 i video generati dall'AI duravano pochi secondi, tremolanti e surreali. Oggi si parla di clip realistiche di 30-60 secondi, con movimenti di camera coerenti.

I player principali:

Sora (OpenAI). Ha fatto notizia con demo impressionanti. Genera video da prompt testuali con una qualità che ha scioccato l'industria cinematografica.

Runway. Uno dei pionieri. Offre generazione video, editing assistito dall'AI, e strumenti professionali per filmmaker. Il più accessibile per chi vuole provare.

Kling e Hailuo. Modelli cinesi che hanno raggiunto rapidamente livelli qualitativi altissimi, spesso superiori ai concorrenti occidentali.

Veo (Google). Integrato nell'ecosistema Google, in evoluzione rapida.

Lo stato attuale: i video generati sono impressionanti per clip brevi e scene specifiche, ma hanno ancora limiti evidenti per contenuti lunghi, coerenza temporale (oggetti che cambiano forma tra un frame e l'altro) e realismo dei movimenti umani. Siamo all'inizio, ma il progresso è velocissimo.

AI che capisce le immagini

Non è solo generazione — l'AI sa anche analizzare contenuti visivi. Questa capacità si chiama "vision" ed è integrata nei principali modelli.

Cosa puoi fare oggi:

Descrivere foto: carichi un'immagine e l'AI descrive cosa vede, in dettaglio
Analizzare grafici: carichi un grafico e l'AI estrae dati, trend, insight
Leggere documenti: carichi un PDF scansionato, un menu, una ricevuta — l'AI legge il testo (OCR avanzato)
Identificare oggetti: "Cos'è questa pianta?", "Che razza è questo cane?"
Analizzare codice da screenshot: carichi uno screenshot di codice e l'AI lo legge e lo corregge
Confrontare immagini: "Quali sono le differenze tra queste due versioni del logo?"

GPT-4o, Claude e Gemini hanno tutti capacità vision integrate. Basta allegare un'immagine alla chat e fare domande su di essa.

Audio generato: musica e suoni

L'AI non genera solo voci — crea anche musica originale.

Suno e Udio sono i principali generatori musicali. Dai un prompt testuale ("una canzone pop allegra in italiano sull'estate, con chitarra acustica e beat elettronico") e in pochi secondi hai una canzone completa con voce, strumenti e struttura musicale.

La qualità è sorprendente — abbastanza buona per un jingle, una colonna sonora di un video, o un sottofondo. Non sostituisce (ancora) un musicista professionista per produzioni di alto livello, ma per contenuti social, presentazioni e progetti personali è già più che sufficiente.

Il problema del copyright

Tutti questi modelli sono stati addestrati su opere create da umani: foto, illustrazioni, musica, video. Molti artisti non hanno dato il consenso e non ricevono compensi. Questo ha generato cause legali e un dibattito acceso.

Alcuni punti chiave:

Getty Images ha fatto causa a Stability AI per l'uso non autorizzato delle sue foto
Il New York Times ha fatto causa a OpenAI per l'uso dei suoi articoli
Molti artisti usano strumenti come Glaze e Nightshade per proteggere le loro opere dall'essere usate per l'addestramento
La legislazione è in evoluzione: l'EU AI Act richiede trasparenza sui dati di addestramento

Non esiste ancora una risposta definitiva. Il tema è complesso e ne parliamo in dettaglio nel capitolo sull'etica.

In pratica 🎯

Prova la generazione di immagini con prompt progressivi:

Vai su ChatGPT (con DALL-E) o Ideogram (gratuito)
Genera un'immagine con un prompt semplice: "a cat"
Ora aggiungi dettagli: "a black cat sitting on a windowsill, rainy day outside, moody blue lighting, watercolor style"
Prova un prompt ancora più specifico: "a black cat sitting on a Victorian windowsill, rain drops on the glass, soft blue and grey tones, watercolor illustration, studio Ghibli style, warm indoor lighting, books on the windowsill"
Confronta i tre risultati

Nota come ogni livello di dettaglio nel prompt ti dà più controllo sul risultato. Il principio è lo stesso del prompting testuale: più sei specifico, più ottieni quello che vuoi.

Risorse correlate

📖 Glossario: Diffusion, Text-to-Image, Text-to-Speech, Speech-to-Text, Multimodale, Vision, Deepfake
📄 Doc: ChatGPT (DALL-E), Midjourney
🔧 Tool: Midjourney, DALL-E, Stable Diffusion, ElevenLabs, Suno, Runway

Non hai capito qualcosa?

Chiedi a un chatbot AI. Abbiamo preparato il prompt per te con il contesto di questa lezione.

Si aprirà in una nuova scheda con il prompt pronto

PrecedenteDentro un modello di linguaggio

ProssimoAI e dati: il carburante