Di Alessio Jacona*
È il sogno di quasi ogni grande scrittore di fantascienza: un'intelligenza artificiale capace di conversare in modo naturale e sviluppare legami emotivi con un essere umano. La rappresentazione recente e forse più nota è quella risalente al 2013 con il film "Her", del regista Spike Jonze, dove il protagonista Joaquin Phoenix praticamente si innamora di un sistema operativo. Ma gli esempi non mancano e potremmo citare Jarvis, il maggiordomo digitale del miliardario Tony Stark/Ironman, oppure ancora lo spietato e intelligentissimo robot Ava di “Ex machina”. Ecco: con l'introduzione di GPT-4o, ultimissima versione dell'IA generativa sviluppata da OpenAI, la possibilità di realizzare sistemi con questo livello simil-umano di interazione sembra davvero più tangibile, se non addirittura già una realtà.
Presentato lunedì 13 maggio, GPT-4o - dove la “o” sta per Omni, e indica che il modello nasce multimodale, cioè capace di comprendere testo ma anche ad esempio immagini e video - mostra abilità impressionanti: nei diversi video dimostrativi pubblicati online dall’azienda guidata da Sam Altman, l’IA presenta innanzitutto una capacità di conversazione audio in tempo reale nettamente superiore alla versione precedente, basata sul modello GPT-4 Turbo. E questo sia perché sparisce il caratteristico lag (cioè ritardo) nella risposta (di solito pari a 2 o 3 secondi), sia perché GPT-4o sembra percepire le emozioni del parlante, adattando il tono della voce e includendo suoni, risate e persino canti nelle risposte. Quest’ultime sono fluide, appaiono ragionate e sono anche punteggiate da alcune pause e piccole incertezze che rendono la voce ancora più umana. Per fare un esempio, durante la presentazione due ricercatori di OpenAI hanno interagito dal vivo con l'assistente vocale: su richiesta, quest’ultimo ha creato una storia della buonanotte su amore e robot, variando le inflessioni emotive e vocali.
Un'altra innovazione significativa riguarda la computer vision e quindi la capacità di comprendere le immagini: gli utenti possono caricare screenshot, documenti con testo e immagini o grafici, e GPT-4o è in grado di analizzare questi contenuti visivi. Cosa ancora più strabiliante, nel corso di una demo il nuovo modello ha mostrato la capacità di interpretare selfie, rilevare emozioni e persino scherzare sulle immagini. In un'altra demo, la fotocamera di un telefono è stata utilizzata per mostrare al modello di IA un'equazione matematica, e GPT-4o ha poi guidato gli spettatori nella risoluzione del problema.
L’effetto è incredibile, eppure non è del tutto nuovo: già da qualche tempo OpenAI aveva abilitato nell’assistente vocale di ChatGPT la capacità di rispondere in modo più naturale, ma bisognava chiedergli espressamente di farlo, e la simulazione si limitava a poche risposte. Un'altra applicazione di queste abilità dall’enorme potenziale, sia in positivo sia in negativo, è forse poi quella che abbiamo visto con il robot di FigureAI - quello chiamato Figure01 e del quale abbiamo già parlato - che univa un avanzatissimo sistema di gestione dei movimenti a un non meglio precisato modello generativo sviluppato proprio da OpenAI. Nel video che lo mostra all’opera, lo vediamo dare risposte in maniera fluida, senza alcuna attesa, mentre dimostra capacità di “ragionamento” e di interpretare il contesto circostante grazie a telecamere dedicate. A valle del lancio di GPT-4o, è difficile non pensare che le skill di conversazione quasi umane di Figure01 fossero proprio un’anteprima di GPT-4o (che per l’occasione era stato chiamato solo “GPT”).
Secondo quanto ha riferito Mira Murati, CTO di OpenAI, con GPT-4o la velocità e la qualità delle risposte sono state incrementate notevolmente in oltre 50 lingue, coprendo il 97% della popolazione mondiale. Tra l’altro, il nuovo modello di IA è capace di tradurre conversazioni in tempo reale, rendendo possibile una comunicazione fluida tra persone che parlano lingue diverse.
La velocità è un dono portato in dote dalla multimodalità: se infatti prima il sistema lavorava svolgendo in sequenza processi diversi come la trascrizione o la conversione da testo a voce, di fatto sommando le latenze di ciascun processo, ora con GPT-4o tutto avviene simultaneamente, permettendo all'AI di "ragionare" attraverso voce, testo e visione, in una modalità che OpenAI chiama "omnimodel", e che ricorda quella di Gemini, l’IA generativa di Google.
Altra novità riguarda la stessa modalità di fruizione di questa tecnologia: GPT-4o sarà infatti disponibile gratuitamente per tutti gli utenti di ChatGPT, mentre a distinguere l’esperienza degli abbonati sarà la velocità d’esecuzione, per loro cinque volte superiore a quella degli utenti gratuiti.
Mira Murati, CTO di OpenAI, ha affermato durante la presentazione: "GPT-4o ragiona attraverso voce, testo e visione, rendendo l'interazione con l'AI più fluida e naturale." Riguardo alle sfide di sicurezza poste dalle nuove capacità del modello, ha aggiunto: "Continueremo a implementare il modello in modo iterativo nelle prossime settimane, prestando particolare attenzione alla sicurezza."
Intenzioni condivisibili e sicuramente encomiabili: resta tuttavia il dubbio se sia davvero opportuno rendere subito disponibili al grande pubblico strumenti così potenti, capaci di un’interazione simil-umana, senza mettere contemporaneamente in campo sistemi e misure di sicurezza strutturati, e senza aver avuto il tempo di elaborare e diffondere tra le persone la cultura e la consapevolezza necessarie a utilizzare consapevolmente un’IA che sembra avere un’anima ma che poi, alla fine, non ce l’ha.
**Giornalista, esperto di innovazione e curatore dell’Osservatorio Intelligenza Artificiale ANSA
Leggi l'articolo completo su ANSA.it