Rubriche

Google espande l'Intelligenza artificiale nella ricerca

Nuova funzione a partire da Usa. Arriva anche Project Astra, con l'IA vede e parla

Redazione Ansa

Google espande l'intelligenza generativa nella ricerca. Alla Conferenza degli sviluppatori il Ceo Sundar Pichai ha annunciato l'apertura "agli Stati Uniti e presto ad altri paesi" della funzione AI Overview, i Riepiloghi, grazie alla quale gli utenti visioneranno risposte su domande complesse generate dall'IA. "Sono entusiasta di annunciare che questa settimana inizieremo a lanciare questa esperienza completamente rinnovata", ha dichiarato Pichai. "Google è in piena era di Gemini - ha aggiunto, facendo riferimento al chatbot lanciato un anno fa - un modello di frontiera pensato per essere multimodale dall'inizio. Ad oggi tutti i prodotti Google che superano i 2 miliardi di utenti usano le capacità di Gemini". Il ceo ha poi reso noto che durante la Google I/O il termine intelligenza artificiale è stato menzionato oltre 120 volte.

Nella nuova interfaccia il chatbot riassume la risposta alla domanda scritta nel classico box superiore, prima dei classici siti web. Se si digita "come rimuovere una macchia di caffè dal tappeto?", Gemini restituirà dei passaggi consigliati con ulteriori link di riferimento.

Alla conferenza degli sviluppatori Google ha rispoSto ad OpenAI presentando un assistente digitale "multimodale" in grado di elaborare anche video e voce, non solo il testo. Si chiama Project Astra ed è la risposta a Gpt-4o lanciato proprio 24 ore fa dalla concorrente. Elabora testo, voce e immagini in tempo reale mentre interagiamo, capendo anche il contesto. "Vogliamo rendere l’IA utile per tutti. Per raggiungere tale obiettivo abbiamo lavorato con DeepMind nella realizzazione di Project Astra e degli AI Agents”, ha detto Pichai. Una demo in diretta ha mostrato la possibilità di usare la fotocamera del telefono per riconoscere quello che c’è nell'ambiente circostante. L'IA “vede” il contesto e risponde, con un output vocale, alle domande poste dall’utente, come se fosse in una conversazione tra due persone.

Gli AI Agents sono moduli, una sorta di piccole intelligenze artificiali, che imparano il comportamento delle persone per anticipare le loro richieste e coordinare le attività, anche su piattaforme differenti. Sono pensati per lavorare su computer e dispositivi mobili. Questi agenti sono costruiti sul modello di Gemini e su altri specifici per elaborare le informazioni più velocemente, codificando continuamente dati come foto e video, da integrare con la voce. Per un’esperienza ancora più personale, gli abbonati a Gemini Advanced potranno creare i Gem, le versioni personalizzate di Gemini. Basterà descrivere quello che si vuole e come l'IA deve rispondere. Gemini esaminerà queste istruzioni e, con un solo clic, le userà per creare un Gem che soddisfi esigenze specifiche. In un esempio fornito da Pichai, gli AI Agents potranno eseguire operazioni automatizzate al posto degli utenti, per acquistare un paio di scarpe online, conoscendo già i gusti della persona e il numero che calza. Con un accesso sicuro alle informazioni di pagamento, l’AI Agents effettuerà il pagamento e programmerà la consegna del corriere a casa. 

Non c'è solo Sora di OpenAI. La sfida ai programmi che trasformano indicazioni testuali in video entra nel vivo con Google Veo. L’azienda ha presentato una nuova intelligenza artificiale durante la conferenza I/O 2024. Veo genera filmati di alta qualità che possono superare il minuto, con molti stili visivi e cinematografici diversi. Con una comprensione avanzata del linguaggio naturale e della semantica visiva, Veo può generare video che rappresentino con precisione la visione creativa dell’utente - cogliendo il tono delle richieste. Il modello comprende anche termini specifici, come “timelapse” o “riprese aeree di paesaggi”, per creare scene verosimili, come fare un videomaker in carne e ossa. 

Demis Hassabis, amministratore delegato di Google DeepMind, ha spiegato che Veo è capace di mantenere una certa coerenza nei video finali, un particolare che spesso manca ai progetti di IA, con persone, animali e oggetti che si muovono in modo realistico attraverso le inquadrature. Al momento, l'accesso a Veo è riservato, con Google che ha collaborato con alcuni creativi per mostrare le potenzialità dell'IA. In campo multimediale, viene annunciato anche Imagen 3, che genera foto da testo. Secondo Google, Imagen 3 comprende meglio il linguaggio naturale e le intenzioni degli utenti, sia che si tratti di brevi descrizioni che di testi più lunghi. Ottimizzata anche la realizzazione di testi nelle grafiche, una delle principali pecche delle attuali soluzioni di intelligenza artificiale generativa aperte al pubblico.

Tutte le migliorie di Gemini dipendono dal nuovo modello Gemini 1.5 Pro, che dispone di una finestra contestuale che parte da 1 milione di token - secondo Google la più grande per qualsiasi chatbot consumer a livello mondiale. Gemini Advanced, la declinazione più alta dell'IA, può cogliere il significato di documenti di dimensioni considerevoli, ad esempio PDF di 1500 pagine, oppure riassumere 100 email in pochi secondi. Presto sarà in grado di gestire contenuti video della durata di 1 ora. Aggiornato anche l'hardware che potenzia il calcolo dei modelli di intelligenza artificiale di Google. Trillium è il nome della sesta generazione di processore per Google Cloud, progettato per la gestione delle reti neurali che danno vita alle prestazioni di IA.

Pichai, alla Google I/O 2024, ha svelato l’arrivo di “Cerchia e cerca” su tutti i dispositivi Android. Si tratta della funzione, lanciata a gennaio sui Galaxy S24 e poi sugli smartphone Pixel, con cui è possibile cerchiare qualsiasi elemento sullo schermo del telefonino e ottenere risposte contestuali, grazie all’IA generativa di Gemini. Per l’occasione, “cerchia e cerca” viene ampliato per rispondere a varie istruzioni, tra cui la risoluzione di compiti matematici, con la spiegazione passo passo del procedimento per arrivare alla fine di un’equazione o di un grafico. Ma non è tutto: nella seconda metà dell’anno, sui dispositivi Pixel, Google porterà le opzioni di Gemini Nano, il modello più piccolo di intelligenza artificiale di Google, pensato proprio per i dispositivi mobili. Questo avrà funzionalità multimodali complete: oltre alla semplice elaborazione degli input di testo, lo smartphone potrà anche comprendere più informazioni di contesto, come luoghi, suoni e linguaggio parlato. In particolare, le persone potranno caricare nella barra di ricerca di Google anche dei video registrati con il cellulare, da usare per individuare risposte ad un problema. L’IA riconoscerà il focus per restituire altri video correlati e link utili. L'aggiornamento riguarderà anche la sicurezza digitale degli utenti. Secondo Google, durante un periodo di 12 mesi sono stati persi oltre mille miliardi di dollari a causa di frodi telefoniche.

L'azienda sta testando una nuova funzionalità che usa Gemini Nano per fornire avvisi in tempo reale durante una telefonata, se rileva schemi di conversazione comunemente associati a frodi. Ad esempio, si riceverà un avviso se un individuo che afferma di essere un rappresentante della banca chiederà di trasferire urgentemente fondi, effettuare un pagamento con una carta o comunicare informazioni personali come PIN o password. Questa protezione avviene interamente sul dispositivo, senza la diffusione di informazioni online e mantenendo tutto in privato. 

Leggi l'articolo completo su ANSA.it