Parliamo di generazione di immagini, eppure è tutta una questione di parole. Chiunque abbia giocato con IA come Midjourney o Dall-E, sa bene che la qualità di ciò che viene prodotto dipende direttamente dalla ricchezza, puntualità e precisione delle istruzioni che si danno all’intelligenza artificiale. È insomma tutta una questione di “prompt”, ovvero di come si formula la richiesta al sistema, tanto che il modo scrivere le istruzioni è diventato sempre più articolato e complesso (viene definito anche prompt engineering), e sta diventando una nuova competenza sempre più richiesta, quasi una forma d’arte. Un compito così difficile che, in alcuni casi, si preferisce affidarlo a ChatGPT, l’altra popolarissima IA generativa della tech company americana OpenAI.
Fino ad oggi.
L’azienda guidata da Sam Altman ha infatti presentato in questi giorni DALL-E 3, la nuova iterazione della sua IA generativa che, almeno secondo i suoi creatori, riesce ora a produrre immagini più complesse, dettagliate e realistiche con prompt molto più semplici. Certo, bisognerà aspettare questo ottobre per poter testare di persona il nuovo sistema, ma intanto le prime foto mostrate dall’azienda americana, corredate dal prompt che le ha generate, lasciano già a bocca aperta e sembrano aprire nuovi scenari, nel bene e nel male. Già, perché se è vero che questi strumenti possono essere messi al servizio della creatività, altrettanto vero è che si prestano alla creazione di immagini false sempre più realistiche: immagini che malintenzionati e truffatori potrebbero usare per frodi, social engineering o persino per manipolare l’opinione pubblica.
Cosa sappiamo
Innanzitutto, sappiamo che DALL-E 3 sarà integrato nativamente con ChatGPT e che da ottobre sarà disponibile attraverso il servizio a pagamento ChatGPT Plus; che sarà in grado di creare immagini prendendo spunto dalla conversazione che l'utente tiene con il popolare chatbot (come già avviene con Bing Chat di Microsoft), ma anche che permetterà di utilizzarlo per aiutare a generare prompt più puntuali e precisi; sappiamo, inoltre, che potrà finalmente gestire l’inserimento di testo all'interno delle immagini (come etichette e cartelli), superando un importante limite della versione precedente e battendo sul tempo la concorrenza.
Quello che OpenAI non ha invece reso noto - come già era avvenuto per GPT-4 - sono i dettagli sul training della nuova versione di DALL-E, quali ad esempio il numero di parametri utilizzati, la tipologia e soprattutto la provenienza dei dati su cui l’IA è stata addestrata. Intanto, analizzando le prime immagini sul blog ufficiale dell’azienda, a saltare subito agli occhi è la notevole precisione (specie rispetto a DALL-E 2), con cui l’IA realizzerebbe (il condizionale è d’obbligo fino a un test diretto) dettagli prima problematici come le mani, creando immagini di alta qualità già con prompt brevi e molto semplici.
Uno strumento alla portata di tutti, forse di troppi
Il potenziamento di DALL-E 3, e la contestuale semplificazione delle istruzioni necessarie a creare immagini di alta qualità, abbassano drasticamente la barriera di accesso alla produzione di immagini utili agli scopi più diversi, che peraltro OpenAI rende disponibili a chi le genera senza limitazioni di utilizzo. Una ghiotta opportunità per i creator di ogni genere, per gli artisti alla ricerca di ispirazione, o per le aziende che devono generare immagini di prodotti con cui corredare le loro campagne di comunicazione e marketing. E poi, ancora, per gestori di siti per l’e-commerce, che potranno provare a utilizzare DALL-E per rinnovare i loro cataloghi di prodotto. Resta da capire quale sarà, alla prova dei fatti, la qualità effettiva delle immagini generate dall’IA di OpenIA. E poi, in ultima analisi, anche cosa ne sarà di professionisti e aziende che producono e commerciano immagini di stock.
E poi, inevitabilmente, c’è anche il problema di un potenziale uso illecito, pericoloso o comunque poco etico di questa tecnologia generativa: oltre al fatto che le immagini generate con DALL-E 3 potrebbero ancora una volta essere inquinate dai pregiudizi insiti nel set di dati di addestramento, esse potrebbero essere utilizzate anche per creare disinformazione, per fare scherzi di cattivo gusto che rischiano di scatenare il caos in contesti dove la tensione politica e sociale è già alta (come le false immagini dell’arresto dell’ex presidente USA Donald Trump), o che semplicemente rischiano di compromettere l’immagine di personaggi pubblici (come le foto che ritraevano Papa Francesco con un piumino alla moda).
A tale riguardo, OpenAI getta acqua sul fuoco rivelando di aver collaborato con un “Red Team”, una task force specializzata nel mettere a dura prova il servizio alla ricerca di falle e vulnerabilità, proprio per identificare e mitigare problemi come pregiudizi dannosi o la generazione di propaganda e disinformazione. Se ciò sarà sufficiente, lo scopriremo molto presto.
*Giornalista, esperto di innovazione e curatore dell’Osservatorio Intelligenza Artificiale ANSA.it
Leggi l'articolo completo su ANSA.it