01. Rubriche

Ecco Sora, il generatore di video targato OpenAI

L’azienda guidata da Sam Altman presenta a sorpresa il suo primo modello generativo text-to-video, capace di creare clip fotorealistici da 60 secondi

Ecco Sora, il generatore di video targato OpenAI

Redazione Ansa

OpenAI coglie tutti di sorpresa e presenta Sora, il suo primo modello generativo Text-to-Video che trasforma istruzioni testuali in video fotorealistici. Il nuovo servizio, che per il momento non sarà aperto al pubblico ma solo a un gruppo selezionato di esperti di sicurezza e creator, è in grado di generare video fino a 60 secondi in qualità HD partendo da un semplice testo, esattamente come accade per le immagini con Dall-E 3 (sempre di OpenAI), Midjourney o Stable Diffusion.

 

Nel presentare Sora, OpenAI ha pubblicato diversi video d’esempio che mostrano di cosa sia capace il nuovo modello generativo. L’azienda non ha però rilasciato specifiche tecniche che descrivano più in dettaglio il funzionamento del modello, non ha dato accesso ai giornalisti per testarne le capacità e non ha specificato quando verrà aperto al pubblico.

 

Intanto, quello che è possibile comprendere analizzando le immagini rese pubbliche è che, sebbene non siano perfette, sembrano comunque un consistente passo in avanti rispetto agli altri modelli generativi text-to-video attualmente disponibili, come Runaway (giunto alla Gen2) o Pika. Allo stesso tempo, è bene tenere presente che i video attualmente visibili sulla pagina ufficiale di Sora sono probabilmente il frutto di una selezione, e quindi forse non indicativi delle prestazioni medie del modello.

 

«Sora è in grado di generare scene complesse con più personaggi, tipi specifici di movimento e dettagli accurati del soggetto e dello sfondo - si legge nel testo di presentazione - il modello comprende non solo ciò che l'utente ha chiesto nel prompt, ma anche come queste cose esistono nel mondo fisico». Quest’ultimo è un progresso particolarmente importante, perché gli altri modelli pre-esistenti (e che sono sul mercato a partire dalla fine del 2022) faticano ancora a mantenere la coerenza della scena e degli elementi che la compongono, con oggetti che spariscono senza una ragione, proporzioni sbagliate e altri errori di questo genere.

 

Anche le demo di Sora non sono perfette, ma la qualità dei dettagli appare di molto superiore a quella della concorrenza che si tratti di primi piani, close-up strettissimi, riprese da drone, o animazione in stile Pixar, così come nel ricostruire interi scenari tra cui anche una cittadina del Far West di fine ‘800. A tal proposito, particolarmente interessanti sono due video ambientati a Tokyo: nel primo una donna cammina di notte tra i palazzi i una strada molto frequentata, dove l’efficace gestione della folla, delle luci e dei riflessi sull’asfalto bagnato (e anche sui suoi occhiali durante il primo piano) dà un’idea molto incoraggiante delle capacità di Sora. In un altro video, due innamorati camminano di giorno su un marciapiede mano nella mano seguiti da un drone, e andrebbe tutto bene se non fosse per il fatto che le auto nella strada accanto sono più piccole delle persone che si vedono in giro. Pregi e limiti di un modello generativo che sembra comunque molto promettente.

 

«Oggi Sora è a disposizione dei red teamer (membri di un gruppo - o Red Team - che attacca il sistema per testarne la vulnerabilità n.d.r.) per valutare le aree critiche in termini di danni o rischi», si legge sulla pagina ufficiale di OpenAI. È un passaggio obbligato, specie per capire come evitare che il sistema, una volta reso pubblico, venga utilizzato per creare deep fake utili agli scopi criminali più diversi, dalla manipolazione dell’opinione pubblica al revenge porn.

 

Un approccio prudente, che però non esclude e anzi anticipa la commercializzazione del nuovo modello generativo visto che «Stiamo anche concedendo l'accesso a una serie di artisti visivi, designer e registi - scrivono i responsabili di Sora - per ottenere un feedback su come far progredire il modello per essere più utile ai professionisti della creatività». Tradotto in parole povere: OpenAI si prepara a sconvolgere anche l’industria del video.

 

*Giornalista, esperto di innovazione e curatore dell’Osservatorio Intelligenza Artificiale ANSA.it

Leggi l'articolo completo su ANSA.it