Creiamo un corto con l’AI – quale software scegliere

15 Ottobre 2025 | Approfondimenti | 0 commenti

Condividi l'articolo

Benvenuti alla seconda tappa del viaggio verso la realizzazione del cortometraggio Stanza. [Se vi siete persi il primo post, lo trovate qui: Dal testo allo schermo – creiamo un corto con l’AI]

Nel primo articolo abbiamo mappato l’intero percorso del progetto, dalle descrizioni dei personaggi fino al montaggio finale. Oggi entriamo nel vivo di una delle fasi più “cinematiche”: dall’immagine al movimento, ovvero come dare vita alle immagini statiche usando la tecnologia image-to-video [strumenti che permettono di creare un breve video partendo da un’immagine e da una descrizione testuale].


Perché partire dall’immagine (e non direttamente dal testo)

Come anticipato nel primo post, esistono due approcci principali per generare video con l’AI:

  • Text-to-video : il modello genera l’intera scena animata partendo solo da una descrizione testuale, senza immagine di base
  • Image-to-video : il modello “anima” immagini statiche già esistenti, aggiungendo movimento di camera, alterazioni di luce, profondità e audio sincronizzato

Per Stanza ho scelto il secondo approccio. Perché?

Perché voglio partire da immagini guida che ho costruito con cura nei passaggi precedenti: personaggi definiti, scenografia studiata, composizione prospettica precisa. Il modello non deve reinventare la scena dal nulla, ma darle vita restando fedele all’inquadratura e alla logica spaziale che ho immaginato.

È la differenza tra dire “Fammi un video di una stanza” e dire “Ecco la stanza, ora falla vivere”.


I modelli che ho testato (con Fal.ai come banco di prova)

Prima di entrare nei dettagli, una parola su Fal.ai: è una piattaforma che ospita diversi modelli generativi (immagine, video, audio) e li mette a disposizione come servizi “pay per use”. Questo permette di testare vari modelli in modo comparativo, senza dover gestire l’infrastruttura tecnica. Un laboratorio perfetto per capire quale strumento funziona meglio per il nostro progetto.

Ho testato tre modelli image-to-video, e ne ho dovuto scartare uno che però è molto molto promettente:

Veo 3.1 fast

Modello di Google, uscito nella sua versione 3.1 il 15 ottobre. Gestisce video e audio (effetti sonori, ambientali e dialoghi)

Costo per 8 secondi di video con dialoghi: 1.20$

 Kling 2.5 turbo Pro

Modello cinese, ottima qualità visiva, ma non supporta i dialoghi. Teniamo presente che si potrebbe supplire a questo problema passando da un software che modifica il labiale del video per far parlare le persone

Costo per 8 secondi di video: 0.70$

Wan 2.5

Altro modello cinese, evoluzione di Wan 2.2, modello Open Source. Supporta i dialoghi.

Costo per 8 secondi di video con dialoghi: 1.50$

Sora 2 (scartato)

Purtroppo uno dei più nuovi e incredibilmente potente software, sviluppato da OpenAI, per ora non supporta nella modalità image-to-video l’inserimento di persone. Sicuramente questa possibilità verrà implementata presto, ma per ora non posso prenderlo in considerazione

Nota: i prezzi sono indicativi e possono variare. Quando decideremo il software da utilizzare vedremo come ottenere prezzi più vantaggiosi 


 

I prompt che ho usato

Ho preparato tre prompt per testare i modelli e far emergere le differenze. Eccoli, insieme all’immagine di partenza e ai video che ho generato. Le immagini sono state generate con MidJourney e sono nel formato 16:9, quello che useremo per il cortometraggio.

 

Prompt 1 – Cura/Intimità

A woman sits beside a man lying in bed. She feeds him with a spoon, slowly. The sunset light filters through a window, casting soft shadows on their faces.

VEO 3.1

WAN 2.5

KLING 2.5


 

Prompt 2 – Fuga interiore

A man walks quickly down a dark corridor. The lights flicker and flash as he passes. Suddenly he stops, turns sharply toward the camera. His breathing is labored. Behind him, shadows stretch and seem to chase him. The camera slowly retreats as he starts running again into the darkness.

Veo 3.1

Wan 2.5

Kling 2.5


 

Prompt 3 – Metamorfosi ambientale

A room begins to dissolve: its walls crumble into dust, the floor turns to sand, and the interior light merges with a desert landscape beyond.

VEO 3.1

WAN 2.5

KLING 2.5


 

Prompt 4 – Dialogo

[00:00–00:02] Wide OTS / slow dolly-in
Interior – doctor’s office, late afternoon. Warm light from a desk lamp contrasts with cold blue reflections from medical scans. The doctor sits calmly; Eva is tense, hands clasped.
Tone: quiet, empathetic tension.
Cinematography: 35mm lens, shallow DOF, slow dolly-in, soft contrast.

Dialogo:
DOTTORE (voce calma): “Eva… devi accettarlo.”


[00:02–00:05] Close-up on Eva / handheld
Tight on her face, eyes moist, lips trembling. Light from the scans moves gently over her skin.
Cinematography: 85mm macro, micro tremor, emotional focus.
Dialogo:
EVA (sussurrando): “Non posso. Se lo lascio, muore.”


[00:05–00:08] Two-shot front / slow fade
The doctor lowers his gaze; silence fills the room. Eva looks up, half in shadow. The background dissolves into pale light, soft and dreamlike.
Tone: quiet resignation, fragile connection.
Cinematography: 50mm, dolly-in, soft overexposure fade.
Dialogo (fuori campo, lieve):
DOTTORE: “E se morissi tu, restando lì?”

VEO 3.1

WAN 2.5

KLING 2.5


 

La scelta finale: Veo 3.1 Fast per tutto il progetto

Dopo i test, la decisione è chiara: userò Veo 3.1 Fast per l’intero progetto Stanza.

Ecco perché:

1. Rapporto qualità/prezzo ottimale
Con circa $0,10-$0,15 al secondo, Veo 3.1 Fast offre una qualità cinematografica più che accettabile per un progetto indipendente. È il punto di equilibrio tra risultato professionale e budget sostenibile.

2. Supporto audio integrato
A differenza di altri modelli testati, Veo 3.1 Fast genera audio completo: dialoghi, voci, effetti ambientali. Per Stanza, dove le conversazioni sono centrali, questo è fondamentale.

3. Coerenza visiva garantita
Usare un solo modello per tutto il corto significa uniformità estetica: niente discontinuità di stile, texture o comportamento della luce tra una scena e l’altra. Il film “respira” con la stessa voce visiva dall’inizio alla fine.

4. Workflow più fluido
Lavorare con un unico strumento significa imparare a conoscerlo a fondo: capire i suoi punti di forza, affinare i prompt, sviluppare una sensibilità verso le sue risposte. Il risultato è un processo più veloce e prevedibile.

5. Stabilità e affidabilità
Rispetto a versioni preview ancora sperimentali o a modelli con accesso limitato, Veo 3.1 Fast offre l’equilibrio perfetto tra prestazioni, disponibilità e documentazione.


Come integro Veo 3.1 Fast nel flusso di lavoro

Ecco il processo che seguirò per ogni scena di Stanza:

  1. Selezione dell’immagine guida: parto da un fotogramma costruito nei passaggi precedenti (personaggi, oggetti, composizione).
  2. Prompt bilingue: testo lo stesso prompt in italiano e inglese per vedere quale il modello interpreta meglio.
  3. Parametri audio: attivo l’audio generativo per le scene dialogate, lo disattivo per le sequenze puramente visive o simboliche.
  4. Valutazione dell’output: analizzo ogni clip generata considerando:
    • Fedeltà visiva all’immagine guida
    • Fluidità del movimento e delle transizioni
    • Qualità dell’audio e dei dialoghi
    • Coerenza narrativa (non solo “effetto bello”)
  5. Iterazione: rigenero, modifico il prompt, correggo luci o pose, fino a ottenere il risultato che risuona con l’intento della scena.

Conclusione: dare vita alla stanza

Siamo arrivati a un punto cruciale. Abbiamo definito i personaggi, costruito la scenografia, preparato le immagini guida. Ora è il momento di dare movimento, vita, parola a tutto questo.

Veo 3.1 Fast si è rivelato la scelta giusta: qualità cinematografica, audio completo, costo sostenibile. Mi permette di concentrarmi sulla creatività senza compromessi tecnici o economici eccessivi.

Ogni clip che genero è un passo verso Stanza. Ogni prompt è una domanda posta all’intelligenza artificiale, e ogni risposta è un frammento di storia che prende forma.

Nei prossimi post entreremo nella fase successiva: dare voce ai personaggi e costruire il mondo sonoro del corto.


💬 E tu, cosa ne pensi?

Hai mai lavorato con modelli image-to-video? Quale approccio preferisci per i tuoi progetti creativi: partire dal testo o dall’immagine?

Condividi la tua esperienza nei commenti: quali strumenti hai testato? Quali sfide hai incontrato? Quali risultati ti hanno sorpreso?

 

0 commenti

Invia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

15 Ottobre 2025 | Approfondimenti | 0 commenti

Condividi l'articolo