Più di 170.000 video presi da YouTube senza consenso per addestrare le intelligenze artificiali di giganti come Apple, Nvidia e Salesforce. Lo afferma un'indagine di Proof News, diffusa anche da Wired, che dice di aver scoperto un enorme archivio di dati contenente sottotitoli estratti dai video YouTube, usato per migliorare le IA dei colossi, senza il permesso dei creatori originali.
L'archivio, chiamato "YouTube Subtitles", include sottotitoli da oltre 48.000 canali YouTube, ma non le immagini associate. Tra i contenuti utilizzati ci sono filmati di celebri youtuber come MrBeast e Marques Brownlee, oltre a clip di importanti testate giornalistiche tra cui Abc News, Bbc e il New York Times. Oltre a rivelare l'utilizzo non autorizzato dei video, l'inchiesta ha portato alla creazione di uno strumento prezioso per gli utenti.
Si tratta di un motore di ricerca interattivo che permette di verificare se i propri contenuti YouTube, o quelli di altri creatori, sono finiti nel controverso dataset. "La maggior parte degli sviluppatori di modelli di intelligenza artificiale è riservata sulle fonti dei propri dati di training. Questi hanno bisogno di grandi quantità di testo di alta qualità per creare modelli che imitano il parlato e la scrittura degli uomini. Per lo scopo, vengono usati libri, blog, disegni, opere originali e altri lavori, spesso senza che i creatori ne siano a conoscenza" scrive Proof News. All'inizio di quest'anno, il New York Times ha riferito che Google, che fa parte di Alphabet, azienda madre anche di YouTube, ha sfruttato i video sulla piattaforma per inserire testo e addestrare i suoi modelli.
Riproduzione riservata © Copyright ANSA