Rubriche

Il paradosso dei chatbot, più crescono più sbagliano

Danno risposte errate piuttosto che ammettere l'ignoranza

Molti errori dei chatbot passano inosservati (fonte: tom mesic via Flickr CC BY-NC-ND 2.0)

Redazione Ansa

Più crescono e fanno esperienza, maggiore è il rischio che rispondano in modo errato piuttosto che ammettere di non saper rispondere: è uno dei grandi problemi dei grandi modelli linguistici che alimentano i chatbot, come ChatGpt e Llama. A dirlo è lo studio nature.com/articles/s41586-024-07930-y">pubblicato sulla rivista Nature da José Hernández-Orallo, dell'Istituto di ricerca per l'Intelligenza Artificiale di Valencia in Spagna, che sottolinea inoltre come questi errori sfuggano facilmente agli umani.

Una delle importanti caratteristiche dei grandi modelli linguistici, o Llm, è la capacità di evolvere nel tempo integrando al loro interno nuove informazioni derivanti dalle interazioni con gli utenti o con gli sviluppatori, così da diventare teoricamente sempre più affidabili. Ma analizzando questo percorso in tre degli Llm più polari, in particolare ChatGpt di OpenAi, Llama di Meta e il modello aperto Bloom, i ricercatori spagnoli hanno osservato un cambiamento del loro comportamento.

Secondo gli autori della ricerca i tre modelli inizialmente erano più propensi di oggi nell'ammettere di non poter rispondere a domande su questioni su cui non si sentivano certi di dare risposte accurate. Una prudenza che è andata gradualmente svanendo: "i modelli 'ingranditi' e modellati tendono a dare una risposta apparentemente sensata, ma sbagliata, molto più spesso rispetto al passato", affermano i ricercatori nell'articolo.

I chatbot "stanno diventando più bravi a fingere di essere informati", ha commentato Hernández-Orallo. Un problema che si aggiunge inoltre all'incapacità da parte degli umani di riuscire a notare questi errori, spesso perché ci si fida automaticamente della macchina.
Il problema potrebbe essere parzialmente risolto impostando negli Llm una sorta di soglia di affidabilità più alta, al di sotto della quale l'IA non rilascia una risposta. Scelta possibile per i chatbot ideati per lavorare in settori specifici, ad esempio in campo medico, ma più difficile immaginare, sottolineano i ricercatori, possa essere introdotta da quelle aziende che sviluppano chatbot 'generalisti' che puntano proprio sulla capacità di risposta in settori molto ampi.

Leggi l'articolo completo su ANSA.it