Uno dei problemi che riguardano le intelligenze artificiali sono l’uso di creazioni (artistiche, video di YouTube e scritte) per il loro allenamento, anche sei i creatori originali non hanno dato il loro consenso. Recentemente si è scoperto che diverse aziende hanno sfruttato migliaia di video caricati su YouTube per addestrare le proprie AI, anche se in maniera diversa da quanto ci si potrebbe aspettare.
Video di YouTube usati per addestrare le AI
Tramite un’inchiesta di Proof News (pubblicata in collaborazione con Wired) si è scoperto che poco pù di 170 mila video di YouTube sono stati usati per allenare AI di aziende quali Apple, Anthropic, Nvidia e Salesforce. Più che i video in sé, queste aziende hanno sfruttato i sottotitoli degli stessi, che sono attualmente contenuti in un dataset denominato “YouTube Subtitles“.
I video provengono da ben 48 mila canali YouTube, sia di creator minori che di vere proprie star della piattaforma come Mr. Beast (Jimmy Donaldson) e MKBHD (Marques Brownlee). Quest’ultimo ha commentato la notizia su X puntando in parte il dito contro ilcolosso di Cupertino: “Apple ha ottenuto dei dati per la sua AI da diverse aziende. Una di queste ha preso un sacco di dati e trascrizioni da numerosi video YouTube, compresi i miei. Apple tecnicamente evita la colpa perché non sono quelli che li hanno presi. Ma questo sarà un problema che si evolverà nel tempo“.
Anthropic e Salesforce hanno negati l’accusa di aver fatto qualcosa di sbagliato, confermando però di aver usato una compilation di dati d’allenamento chiamata The Pile. Quest’ultimo è un immenso dataset creato dall’organizzazione no-profit Eleuther-AI che include sì i dati di YouTube Subtitles ma anche pagine e articoli di Wikipedia. Un rappresentante di Nvidia ha rifiutato di commentare, mentre Apple ha proprio ignorato la richiesta di Proof News.
La testata ha anche creato uno strumento per permettere agli utenti di controllare se i loro video o quelli dei loro creator preferiti sono stati usati per l’allenamento delle AI. Per usarlo basta digitare nella barra di ricerca apposita il nome di un creator o un video. A quanto pare sono stati usati anche video di creator italiani: se si digita ad esempio il nome di Dario Moccia, l’unico video usato è una vecchia reaction a Lost in Tokyo caricata nel 2020 dal freebooter Freenicco, mentre se si digita il nome degli iPantellas si scopre che ben dieci loro video sono nel datset.